AI 全栈工程师成长手册

从入门到精通：算法 × 架构 × 工程 × 管理的完整知识体系与实战方法论。
用法：① 作为学习路线图按阶段推进；② 项目开发时按章节查阅对应 Checklist；③ 定期回顾「能力自评表」校准成长方向。

角色定位与能力地图
基础知识体系
机器学习与深度学习
大模型（LLM)专题
数据工程
后端工程
前端工程
系统架构设计
性能优化与算子优化
MLOps：模型部署与运维
测试与 Debug 方法论
安全、合规与成本
项目管理与团队协作
项目全生命周期 Checklist
成长路线：入门 → 进阶 → 精通
能力自评表
推荐资源

一、角色定位与能力地图

1.1 什么是 AI 全栈工程师

能够独立完成「需求 → 算法验证 → 系统设计 → 开发 → 部署 → 运维 → 迭代」全链路的工程师。核心价值不是每个领域都最深，而是：

端到端交付能力：一个人能把想法变成线上可用的产品；
跨域翻译能力：把产品需求翻译成算法指标，把算法约束翻译成架构决策；
瓶颈定位能力：知道问题出在数据、模型、工程还是产品哪一层。

1.2 能力地图（T 型结构）

横向广度（都要会）：
  数学基础 | Python/SQL | ML/DL 原理 | 数据工程 | 后端 | 前端
  | 架构设计 | DevOps | MLOps | 安全合规 | 项目管理

纵向深度（选 1~2 个做到精通）：
  ① 算法方向：模型训练/微调、算法创新、论文复现
  ② 推理优化方向：量化、编译、算子、推理引擎
  ③ 平台架构方向：高并发系统、ML 平台、分布式系统
  ④ 应用工程方向：Agent/RAG 应用、产品化、全栈交付

建议：先铺横向（6~~12 个月），再根据兴趣和市场选纵向深耕（1~~2 年）。绝大多数岗位要求 = 横向及格 + 一个纵向突出。

二、基础知识体系

2.1 数学（够用即可，按需加深）

领域	必须掌握	用在哪
线性代数	矩阵乘法、特征值、SVD、范数	一切深度学习的语言
概率统计	贝叶斯、分布、期望/方差、假设检验、极大似然	损失函数、评估、AB 测试
微积分	偏导、链式法则、梯度	反向传播
优化	凸优化概念、SGD/Adam、学习率调度	训练调参
信息论	熵、交叉熵、KL 散度	损失函数、蒸馏

学习方式：不要从头啃教材，遇到看不懂的公式再回头补对应章节。

2.2 计算机科学基础

数据结构与算法：哈希、堆、树、图、动态规划——面试必备，工程中用于设计缓存、索引、调度。
操作系统：进程/线程/协程、内存管理、IO 模型（epoll）、虚拟内存——理解高并发和性能问题的根基。
计算机网络：TCP/HTTP/HTTPS/WebSocket/gRPC、DNS、负载均衡——分布式系统的血管。
数据库原理：索引（B+树）、事务（ACID）、隔离级别、锁、MVCC——后端的核心。
编译与硬件基础（进阶）：CPU 缓存层级、SIMD、GPU 体系结构（SM、warp、显存带宽）——算子优化的前提。

2.3 编程语言

语言	定位	掌握程度
Python	算法、后端、脚本，主力语言	精通：类型注解、异步、装饰器、性能陷阱（GIL）
SQL	数据处理的通用语言	精通：窗口函数、执行计划、索引优化
TypeScript/JS	前端 + Node 工具链	熟练
Go 或 Rust	高性能服务、基础设施	熟练其一
C++/CUDA	算子优化、推理引擎	按纵向方向选学
Shell	运维、自动化	熟练

2.4 工程基本功（每天都在用）

Git：分支策略（trunk-based / git-flow）、rebase vs merge、code review 流程。
Linux：常用命令、systemd、性能排查工具（top/htop/iostat/ss/strace）。
Docker：镜像分层、多阶段构建、compose；理解容器 ≠ 虚拟机。
IDE 与 AI 工具：熟练使用 AI 辅助编程（Cursor 等），但保持代码审查能力——AI 生成的代码你必须能逐行解释。

三、机器学习与深度学习

3.1 经典机器学习（不要跳过）

线性/逻辑回归、决策树、随机森林、GBDT（XGBoost/LightGBM）、SVM、KMeans、PCA。
为什么重要：表格数据场景 GBDT 仍是王者；理解过拟合/正则化/偏差方差权衡是所有模型调优的基础；很多业务问题用简单模型 + 好特征就能解决，成本远低于深度学习。

3.2 深度学习核心

基础组件：全连接、卷积、RNN/LSTM、Attention、Transformer（必须能手写一遍）、归一化（BN/LN/RMSNorm）、残差连接。
训练要素：损失函数选择、优化器、学习率调度（warmup + cosine）、梯度裁剪、混合精度（AMP）、梯度累积。
正则化手段：Dropout、数据增强、早停、标签平滑、权重衰减。
框架：PyTorch 为主（必须熟练 autograd、DataLoader、分布式 DDP/FSDP）。

3.3 评估方法论（比训练更重要）

分类：精确率/召回率/F1/AUC，理解业务上 FP 和 FN 哪个代价更高。
回归：MAE/RMSE/R²。
排序：NDCG/MRR。
生成：BLEU/ROUGE 已不够，需要 LLM-as-judge + 人工评估。
铁律：训练/验证/测试集严格隔离；警惕数据泄漏（时间泄漏、ID 泄漏、预处理泄漏）；线下指标提升 ≠ 线上效果提升，最终以 AB 测试为准。

3.4 算法选型决策树

有现成 API/开源模型能达标吗？
├─ 能 → 直接用（prompt/RAG/zero-shot），成本最低
└─ 不能 → 微调能达标吗？
    ├─ 能 → LoRA/全参微调
    └─ 不能 → 数据够吗？
        ├─ 够 → 从头训练（极少需要）
        └─ 不够 → 回头改产品定义或先做数据

四、大模型（LLM)专题

4.1 原理层（理解到能讲清楚）

Transformer Decoder 架构、KV Cache、位置编码（RoPE）、tokenizer（BPE）。
训练三阶段：预训练 → SFT → 对齐（RLHF/DPO）。
推理过程：prefill vs decode、采样参数（temperature/top_p）、上下文窗口的本质。
Scaling Law 与涌现能力的基本认识。

4.2 应用层（当前就业最大需求）

Prompt Engineering：角色设定、few-shot、思维链、结构化输出（JSON mode）、prompt 版本管理与回归测试。
RAG：文档切分策略、Embedding 选型、向量库（pgvector/Milvus/Qdrant）、混合检索（向量+BM25）、重排序（rerank）、引用溯源。RAG 效果差的原因 90% 在检索而不是生成。
Agent：工具调用（function calling）、ReAct 模式、规划与反思、多 Agent 编排、MCP 协议；重点是可控性设计——超时、步数上限、人工确认点。
微调：LoRA/QLoRA 实操、数据配比、过拟合判断、灾难性遗忘。
评估：建立自己的评测集，LLM-as-judge + 抽样人工，每次改动跑回归。

4.3 LLM 工程化要点

流式输出（SSE）、token 计数与成本核算、上下文管理（截断/摘要策略）。
结构化输出校验与重试、幂等设计。
多供应商抽象层（OpenAI/Anthropic/开源自托管可切换）。
缓存策略：精确缓存 + 语义缓存。

五、数据工程

80% 的模型效果问题出在数据上。数据能力是 AI 工程师被严重低估的核心竞争力。

5.1 数据全流程

1	`采集 → 清洗 → 标注 → 版本管理 → 特征工程 → 训练消费 → 线上回流`

采集：埋点设计、爬虫合规、第三方数据协议审查。
清洗：去重（精确+模糊）、异常值、缺失值策略、格式归一化；脏数据检测要自动化成 pipeline。
标注：标注规范文档（含边界 case 裁决规则）、多人标注求一致性（Kappa 系数）、主动学习降低标注量。
版本管理：数据集像代码一样打版本（DVC / lakeFS / 简单的快照+manifest），任何模型必须能追溯到训练数据版本。
回流闭环：线上 bad case → 自动收集 → 标注队列 → 加入训练集 → 新版本模型。这个闭环的效率决定产品迭代速度。

5.2 数据基础设施

批处理：Spark / 单机 Polars、DuckDB（中小规模首选，别动不动上集群）。
流处理：Kafka + Flink（确有实时需求才用）。
存储分层：对象存储（原始数据）→ 数仓（清洗后）→ 特征库/向量库（服务消费）。
调度：Airflow / Dagster / Prefect，任务要幂等、可重跑、有告警。

5.3 数据质量红线

Schema 校验前置（pydantic / Great Expectations）；
训练/服务特征一致性（training-serving skew 是经典事故源）；
监控数据分布漂移（PSI / KL 散度），漂移告警先于效果下降。

六、后端工程

6.1 核心能力

Web 框架：FastAPI（Python 生态首选，类型驱动 + 异步 + 自动文档）；Go 的 Gin/Echo 备选。
API 设计：RESTful 规范、版本化（/v1/）、分页、错误码体系（业务码 ≠ HTTP 码）、OpenAPI 文档即契约。
异步与并发：理解 async/await 的适用场景（IO 密集）、线程池处理 CPU 密集、协程陷阱（阻塞调用拖死事件循环）。
数据库实战：连接池、索引设计、慢查询分析（EXPLAIN）、N+1 问题、事务边界最小化、分页深翻页优化。
缓存：Redis 数据结构应用、缓存穿透/击穿/雪崩对策、缓存一致性策略（先更新库再删缓存）。
消息队列：至少精通一个（Kafka/RabbitMQ/Redis Stream），理解 at-least-once 语义下的幂等消费。

6.2 AI 服务后端的特殊模式

长任务模式：提交任务 → 返回 task_id → 轮询 / WebSocket / Webhook 通知；任务状态机：pending → running → succeeded / failed / cancelled。
流式响应：SSE 实现、断线续传、中途取消的资源释放。
限流与背压：令牌桶限流（按用户/按租户）、队列深度监控、优雅拒绝（429 + Retry-After）。
超时与重试矩阵：每层设超时（网关 < 业务 < 推理总和），重试带指数退避 + 抖动，区分可重试（超时、503）与不可重试（400、内容违规）。
成本埋点：每个请求记录 token 数 / GPU 秒 / 模型版本，按用户/功能聚合。

6.3 可观测性（必须项，不是可选项）

结构化日志（JSON），trace_id 贯穿全链路；
指标：RED 方法（Rate/Errors/Duration）+ 队列深度 + GPU 利用率；
分布式追踪：OpenTelemetry；
AI 特有：输入输出抽样存档、置信度分布、模型版本标记。

七、前端工程

7.1 核心技术栈

React + TypeScript（主流首选）、Next.js（全栈/SSR）、状态管理（Zustand/TanStack Query）、样式（Tailwind）。
移动端：React Native / Flutter 选其一了解即可，除非岗位明确要求。

7.2 AI 产品前端的关键模式

不确定性 UX：骨架屏、流式渲染（打字机效果）、进度反馈、可取消、失败重试入口、超时友好提示。管理用户对”慢和不确定”的预期是 AI 前端的核心命题。
结果可编辑 + 反馈采集：AI 输出允许修正，修正/点踩行为回传作为标注数据。
大文件处理：分片上传 + 预签名 URL 直传对象存储，前端做断点续传。
实时通信：SSE（单向流式首选，简单可靠）vs WebSocket（双向）选型。
错误边界：AI 输出可能是畸形 JSON/超长文本/包含危险内容，渲染层必须有防御（sanitize、长度截断、Markdown 安全渲染）。

7.3 工程化

组件设计：容器/展示分离、设计系统意识（统一 token：颜色/间距/字号）。
性能：代码分割、虚拟列表（长会话/大表格必备）、防抖节流、乐观更新。
测试：关键交互写集成测试（Playwright），别追求 100% 单测覆盖。

八、系统架构设计

8.1 架构设计的思维框架

每个架构决策回答四个问题：

量级：QPS 多少？数据多大？用户多少？——没有量级就没有架构，1k QPS 和 100k QPS 是两个世界。
SLA：可用性目标（99.9%？）、延迟目标（P99 < ?ms）、一致性要求（强一致还是最终一致）。
变化轴：未来最可能变的是什么（流量？功能？模型？），为变化留接口，为不变做优化。
成本：人力成本 + 机器成本 + 维护成本，过度设计是负债。

8.2 AI 数据处理服务的参考架构

客户端 (APP/Web)
    │ HTTPS / WSS
API 网关（鉴权、限流、路由、TLS）
    │
业务服务层（无状态、水平扩展）
 ├─ 同步轻请求 → 直接处理
 └─ 异步重任务 → 消息队列（Kafka/RabbitMQ）
                      │
              任务编排 Worker（状态机、重试、超时）
                      │ RPC / HTTP
              模型推理服务（独立 GPU 资源池）
               ├─ 推理引擎（vLLM / Triton / ONNX Runtime）
               ├─ Dynamic Batching
               └─ 模型版本路由（灰度/AB）
    │
存储层
 ├─ PostgreSQL（业务数据、任务状态）
 ├─ Redis（缓存、分布式锁、限流计数）
 ├─ 对象存储 S3（文件、模型、数据集）
 └─ 向量库（如有检索需求）
    │
可观测性：日志 + 指标 + 追踪 + 告警（Grafana/Prometheus/Datadog）

8.3 关键架构原则

推理服务独立部署：GPU 与 CPU 服务扩缩容逻辑完全不同，必须解耦。
无状态业务层：状态全部下沉到存储层，服务才能随意扩缩容。
队列削峰解耦：重任务一律异步化，消费者按 GPU 吞吐拉取。
幂等性：所有写操作支持幂等（幂等键/版本号），因为重试无处不在。
故障设计：每个依赖都会挂——降级方案（小模型兜底/规则兜底/排队提示）、熔断、舱壁隔离。
多租户（ToB）：数据隔离（行级/库级）、配额、优先级队列。
演进式架构：单体起步 → 按瓶颈拆分。一上来就微服务全家桶是最常见的自杀方式。

8.4 技术选型方法论

默认选「无聊的技术」（PostgreSQL > 新潮数据库），创新预算只花在核心差异点上；
选型写 ADR（架构决策记录）：背景、选项、权衡、决定，三个月后还能看懂为什么；
可逆决策快速做，不可逆决策（数据库、云厂商、核心协议）慢慢做。

九、性能优化与算子优化

9.1 优化总原则

没有 profiling 就没有优化。 凭感觉优化 = 浪费时间 + 引入复杂度。

工具箱：py-spy、torch.profiler、nsys（Nsight Systems）、ncu（Nsight Compute）、火焰图、EXPLAIN ANALYZE。

9.2 按 ROI 排序的优化路径

第一层：系统层（最便宜，先做）

缓存：相同输入直接命中；语义缓存。
批处理：dynamic batching 把零散请求攒成 batch，GPU 吞吐提升数倍。
并发：异步 IO、连接复用、预热（避免模型冷加载）。
数据链路：减少序列化开销、零拷贝、CPU↔GPU 传输用 pinned memory。

第二层：模型层

量化：FP16 → INT8 → INT4（AWQ/GPTQ），精度损失换吞吐。
蒸馏：大模型教小模型，简单请求分流到小模型。
推理引擎：vLLM（LLM 首选，PagedAttention + continuous batching）、TensorRT、ONNX Runtime——裸跑 PyTorch 推理是浪费。
结构优化：剪枝、投机解码（speculative decoding）。

第三层：算子层（最贵，最后做）

先用现成的：FlashAttention、torch.compile、CUDA Graph、融合算子库。
确认瓶颈算子且现有方案覆盖不到，才手写 Triton / CUDA kernel。
手写算子必备知识：GPU 内存层级（HBM/SMEM/寄存器）、warp 调度、访存合并、occupancy、roofline 模型（判断 compute-bound 还是 memory-bound）。
多数”慢”是 memory-bound：优化访存模式收益 > 优化计算。

9.3 常见性能陷阱

Python for 循环处理张量（应向量化）；
DataLoader 成为瓶颈（num_workers、预取、解码放 GPU）；
同步点过多（.item()、.cpu() 频繁调用打断 GPU 流水）；
显存碎片（长短序列混跑）；
数据库慢查询拖死整个服务（监控慢查询日志）。

十、MLOps：模型部署与运维

10.1 模型交付标准化

模型不是一个 .pt 文件，而是一个交付包：

model_package/
├── model 文件（ONNX/safetensors）
├── 模型卡片（输入输出 schema、指标、资源需求、已知缺陷）
├── 预处理/后处理代码（与训练严格一致）
├── 依赖锁定（Docker 镜像 / requirements.lock）
├── 评测报告（评测集版本 + 结果）
└── 数值一致性校验结果（训练框架 vs 推理引擎 diff）

10.2 部署流程

注册：模型进模型仓库（MLflow Registry / 对象存储+元数据），带训练数据版本、代码 commit、指标。
打包：Docker 锁定 CUDA/框架版本；导出推理格式后做数值一致性校验。
压测：确定单实例吞吐与 P99 延迟 → 推算资源量 → 设定扩缩容策略（注意 GPU 冷启动几十秒，扩容要提前量）。
灰度：Shadow mode（跑但不生效，对比新旧输出）→ 5% 流量 → 50% → 全量；每阶段看业务指标不只看技术指标。
回滚：一键回滚必须是分钟级，模型版本路由配置化，不重新部署。

10.3 线上监控（两层缺一不可）

层	监控什么	工具
服务健康	延迟/错误率/QPS/GPU 利用率/显存/队列深度	Prometheus + Grafana
模型健康	输入分布漂移、输出置信度分布、抽样人工评估、bad case 率	自建 + Evidently 等

模型不会报错，只会悄悄变差——模型健康监控是 AI 服务区别于传统服务的核心运维项。

10.4 CI/CD for ML

代码 CI：lint + 单测 + 集成测试；
模型 CI：评测集回归（指标不回退才能合入）；
数据 CI：schema 校验 + 分布检查；
CD：GitOps（ArgoCD）/ 流水线自动化，环境分级 dev → staging → prod。

十一、测试与 Debug 方法论

11.1 测试金字塔（AI 版）

      人工评估 / AB 测试（最贵，最少）
    模型评测集回归（每次改动必跑）
  集成测试（API 级，含 mock 模型）
单元测试（业务逻辑、数据处理函数，最多）

评测集是 AI 项目的”单元测试”：几十~几百条带标准答案的用例，覆盖正常 + 边界 + 对抗 case，持续扩充。
数据处理函数必须有单测（清洗、解析、转换是 bug 重灾区）。
集成测试 mock 掉模型（用固定输出），测的是工程链路而不是模型效果。

11.2 工程 Bug 调试（确定性问题）

复现：构造最小复现用例，不能稳定复现的先加日志/监控收集证据。
定位：二分法缩小范围（版本二分 git bisect、链路二分、数据二分）。
证据驱动：看日志和 trace 而不是猜；分布式问题用 trace_id 串全链路。
修复后：补回归测试，问一句”同类问题还有哪里”。

11.3 效果 Bug 调试（概率性问题）

固定变量：锁定随机种子、模型版本、数据版本，确认可复现性。
分层 dump：输入 → 预处理后 → 模型原始输出 → 后处理 → 展示，逐层落盘对比，定位是哪一层引入的偏差。
Bad case 归类：批量收集错误样本，聚类分析——错误集中在某类输入？数据漂移？标注噪声？逐类解决而非逐条修。
对照实验：每次只改一个变量，用评测集量化前后差异。
经典陷阱排查清单：训练/推理预处理不一致、tokenizer 版本不一致、数值精度（FP16 溢出）、数据泄漏、标签错误。

11.4 线上故障处理（SRE 基本功）

第一优先级是止血（回滚/降级/扩容），不是找根因；
故障后写复盘（timeline、根因、action items），对事不对人；
大事故的根因往往是多个小问题叠加——修系统而不是修单点。

十二、安全、合规与成本

12.1 应用安全

基础：HTTPS 全站、SQL 注入/XSS/CSRF 防护、依赖漏洞扫描、密钥管理（绝不进代码库，用 Vault/环境变量/KMS）。
认证授权：OAuth2/JWT、RBAC、API key 轮换、最小权限原则。
AI 特有：
- Prompt 注入防护（用户输入与系统指令隔离、输出过滤）；
- 模型输出内容安全（审核 API / 规则过滤）；
- 训练数据投毒意识；
- 模型文件供应链安全（不加载不可信 pickle）。

12.2 数据合规

收集前：隐私政策、用户授权（数据是否可用于训练要单独授权）；
处理中：脱敏（PII 识别与遮蔽）、加密（传输 TLS + 存储加密）、访问审计；
法规意识：GDPR / 个保法 / 数据出境规定 / 行业规范（金融、医疗尤严）；
用户权利：数据导出、删除权（注意：已训练进模型的数据如何处理要提前设计）。

12.3 成本工程（AI 产品的生死线）

单位经济模型：算清每请求成本（token/GPU 秒）vs 每请求收入，毛利为负的功能要么提价要么降本要么砍掉。
降本手段优先级：缓存命中 > 小模型分流 > 量化 > 批处理 > 竞价实例 > 自托管。
预算告警：按用户/功能/租户设成本监控与熔断（防止被刷爆）。
GPU 利用率是核心指标：< 40% 说明架构有问题（batch 不够、调度差、资源闲置）。

十三、项目管理与团队协作

13.1 AI 项目管理的特殊性

双轨迭代：工程轨（确定性，按 sprint 排期）+ 算法轨（探索性，按实验周期 + 时间盒管理）。算法任务不承诺”何时达到 X 指标”，承诺”投入 N 天给出结论与下一步建议”。
PoC 先行：立项前用时间盒（1~2 周）验证技术可行性，明确 go/no-go 标准。
指标对齐：开工前产品、算法、工程三方对齐成功指标（业务指标 → 算法指标的映射），写进文档。

13.2 协作交付物标准化

交付物	内容
需求文档 PRD	用户故事、成功指标、边界与非目标
技术方案 / ADR	架构图、接口契约、选型权衡、风险
模型卡片	schema、指标、资源、缺陷、版本
实验记录	用 MLflow/W&B，禁止 Excel + 口头传播
Runbook	部署步骤、回滚步骤、告警处理手册
复盘文档	故障/里程碑后的经验沉淀

13.3 沟通与领导力（从工程师到大牛的分水岭)

向上沟通：用业务语言汇报（收入/成本/风险），不要堆技术细节；坏消息早说。
跨职能翻译：给产品讲清”模型能做什么不能做什么”，给算法讲清”工程约束是什么”。
Code Review 文化：评审看设计与正确性而非风格（风格交给 linter）；评论对事不对人。
写作能力：设计文档、复盘、技术分享——写作是放大影响力的杠杆，大牛都是把事情讲清楚的人。
带人：把任务拆到他人可执行的粒度、容忍短期效率损失换团队成长。

十四、项目全生命周期 Checklist

每个新项目过一遍，按需裁剪。

Phase 0：立项（1~2 周）

问题定义清晰：为谁解决什么问题，现状如何解决
成功指标量化：业务指标 + 算法指标 + 可用线/理想线
PoC 验证模型效果达到可用线（时间盒，go/no-go）
数据可得性确认（来源、规模、合规、标注成本）
单位经济测算（成本 vs 收益粗算）
竞品与替代方案调研（为什么不直接用现成产品/API）

Phase 1：设计（1 周）

技术方案文档 + 架构图 + ADR
API 契约定义（OpenAPI），前后端/算法工程接口冻结
数据 schema 与版本策略
非功能需求明确：QPS、P99、可用性、安全合规要求
降级与兜底方案设计
里程碑拆解与排期（算法任务用时间盒）

Phase 2：开发（迭代进行）

数据 pipeline 先行（采集→清洗→版本化）
评测集建立（先于模型迭代）
工程链路打通（用 mock 模型跑通端到端）
模型迭代（实验记录、每版跑评测集回归）
可观测性同步建设（日志/指标/追踪/成本埋点）
安全检查（密钥管理、注入防护、权限）
CI 全绿：单测 + 集成测试 + 评测集回归

Phase 3：上线（1~2 周）

压测达标，扩缩容策略配置
灰度计划（shadow → 5% → 全量）+ 一键回滚验证过
监控告警配置（服务健康 + 模型健康 + 成本）
Runbook 完成，值班安排
数据回流管道就绪（bad case 收集、用户反馈入口）

Phase 4：迭代（持续）

周期性查看：业务指标、模型健康、成本、bad case
数据回流 → 标注 → 再训练的闭环跑起来
AB 测试驱动模型/功能升级
季度技术债清理与架构回顾
复盘沉淀（故障复盘 + 里程碑复盘）

十五、成长路线：入门 → 进阶 → 精通

阶段一：入门（0~6 个月）—— 能跑通

目标：独立完成一个端到端小项目（如：文档智能问答服务）。

Python 扎实 + SQL + Git + Linux 基础
ML/DL 核心概念 + PyTorch 入门（跑通训练和推理）
FastAPI 写出带数据库的 CRUD 服务
React 写出能调 API 的简单前端
Docker 打包部署到一台云服务器
里程碑项目：RAG 问答应用（前端 + 后端 + 向量检索 + LLM API），部署上线给真人用

阶段二：进阶（6~18 个月）—— 能做好

目标：达到中级岗位水平，对系统有质量意识。

深度学习进阶：手写 Transformer、微调实操（LoRA）、读经典论文（每月 2~4 篇）
后端进阶：消息队列、缓存、分布式基础、压测与性能调优
工程化：CI/CD、可观测性三件套、测试体系
MLOps 入门：模型版本管理、灰度发布、监控
架构入门：读《DDIA》，给自己的项目写技术方案文档
里程碑项目：带异步任务队列 + 独立推理服务 + 监控告警的生产级 AI 服务，扛住真实流量；做一次量化/批处理优化并量化收益

阶段三：精通（18 个月+）—— 能扛事

目标：高级/资深水平，选定纵向方向深耕，具备技术领导力。

纵向深耕（选 1~2 个）：
- 推理优化：CUDA/Triton、vLLM 源码、roofline 分析
- 平台架构：高并发设计、ML 平台建设、多租户系统
- 算法：论文复现与改进、领域模型训练
- 应用：复杂 Agent 系统、行业解决方案
软实力：技术方案评审、带项目、带人、写作与分享
视野：关注成本与商业模式，能参与产品决策
里程碑：主导一个多人协作项目从 0 到 1 上线并持续运营；做一次公开技术分享/开源贡献；能在故障时镇得住场

贯穿始终的习惯

以战代练：知识不落地到项目 = 没学会。每个阶段都要有上线的东西。
写学习笔记/博客：费曼学习法，讲不清楚 = 没懂。
读源码：每个阶段精读一个项目源码（FastAPI → vLLM → 按方向选）。
建立个人知识库：踩坑记录、决策模板、代码片段库，复利积累。
用 AI 加速学习：让 AI 当导师提问/出题/review 你的代码，但核心概念必须自己推导一遍。

十六、能力自评表

每季度自评一次：1 = 听说过，2 = 用过，3 = 熟练，4 = 精通能教人，5 = 领域专家。

能力项	当前	目标	行动
Python / SQL
数据结构算法 / CS 基础
ML/DL 原理与训练
LLM 应用（RAG/Agent/微调）
数据工程
后端开发与数据库
前端开发
系统架构设计
性能优化 / 算子
MLOps / 部署运维
测试与 Debug
安全与合规
成本工程
项目管理与沟通
写作与影响力

岗位胜任参考：初级 = 多数 2~~3；中级 = 多数 3，主攻项 4；高级 = 多数 3~~4，主攻项 4~5 + 项目领导经验。

十七、推荐资源

书籍（按阶段）

入门：《动手学深度学习》(d2l.ai)、《流畅的 Python》
进阶：《Designing Data-Intensive Applications》（DDIA，架构圣经）、《机器学习系统设计》(Chip Huyen)、《SQL 性能优化》类
精通：《Site Reliability Engineering》(Google SRE)、《A Philosophy of Software Design》、CUDA Programming Guide

课程与论文

Stanford CS231n（CV）/ CS224n（NLP）/ CS25（Transformers）
Andrej Karpathy 的 “Neural Networks: Zero to Hero”（手写 GPT，强烈推荐）
经典论文：Attention Is All You Need、GPT 系列、LoRA、FlashAttention、vLLM (PagedAttention)
MLOps：Google 的 “Hidden Technical Debt in Machine Learning Systems”

实践平台与源码

Kaggle（数据与建模手感）、Hugging Face（模型生态）
精读源码：FastAPI、vLLM、LangChain（批判性地读）、nanoGPT
关注工程博客：OpenAI/Anthropic/Meta AI/字节/美团技术博客

保持更新

每周固定 2~3 小时读论文/博客/release note；
加入 1~2 个高质量社区（HN、Reddit r/MachineLearning、相关 Discord）；
原则：新技术先问”解决了我什么问题”，不追热点，按需引入。

结语

大牛 = 扎实的基础 × 端到端交付的项目积累 × 把事讲清楚的表达力 × 时间复利。

这份手册是地图，不是终点。把它放在每个项目的开工 checklist 里，每季度回顾一次自评表，两年后回头看，你已经走出很远。

杂谈

#AI #工程思维 #全栈 #MLOps #Python #DeepLearning

AI 全栈工程师成长手册

http://baikelwang.github.io/2026/06/14/AI全栈工程师成长手册/

作者

北海

发布于

2026年6月14日

许可协议

Uni-3DAR：统一跨尺度 3D 生成与理解的自回归框架上一篇

生日快乐！下一篇

AI 全栈工程师成长手册

目录

一、角色定位与能力地图

1.1 什么是 AI 全栈工程师

1.2 能力地图（T 型结构）

二、基础知识体系

2.1 数学（够用即可，按需加深）

2.2 计算机科学基础

2.3 编程语言

2.4 工程基本功（每天都在用）

三、机器学习与深度学习

3.1 经典机器学习（不要跳过）

3.2 深度学习核心

3.3 评估方法论（比训练更重要）

3.4 算法选型决策树

四、大模型（LLM)专题

4.1 原理层（理解到能讲清楚）

4.2 应用层（当前就业最大需求）

4.3 LLM 工程化要点

五、数据工程

5.1 数据全流程

5.2 数据基础设施

5.3 数据质量红线

六、后端工程

6.1 核心能力

6.2 AI 服务后端的特殊模式

6.3 可观测性（必须项，不是可选项）

七、前端工程

7.1 核心技术栈

7.2 AI 产品前端的关键模式

7.3 工程化

八、系统架构设计

8.1 架构设计的思维框架

8.2 AI 数据处理服务的参考架构

8.3 关键架构原则

8.4 技术选型方法论

九、性能优化与算子优化

9.1 优化总原则

9.2 按 ROI 排序的优化路径

9.3 常见性能陷阱

十、MLOps：模型部署与运维

10.1 模型交付标准化

10.2 部署流程

10.3 线上监控（两层缺一不可）

10.4 CI/CD for ML

十一、测试与 Debug 方法论

11.1 测试金字塔（AI 版）

11.2 工程 Bug 调试（确定性问题）

11.3 效果 Bug 调试（概率性问题）

11.4 线上故障处理（SRE 基本功）

十二、安全、合规与成本

12.1 应用安全

12.2 数据合规

12.3 成本工程（AI 产品的生死线）

十三、项目管理与团队协作

13.1 AI 项目管理的特殊性

13.2 协作交付物标准化

13.3 沟通与领导力（从工程师到大牛的分水岭)

十四、项目全生命周期 Checklist

Phase 0：立项（1~2 周）

Phase 1：设计（1 周）

Phase 2：开发（迭代进行）

Phase 3：上线（1~2 周）

Phase 4：迭代（持续）

十五、成长路线：入门 → 进阶 → 精通

阶段一：入门（0~6 个月）—— 能跑通

阶段二：进阶（6~18 个月）—— 能做好

阶段三：精通（18 个月+）—— 能扛事

贯穿始终的习惯

十六、能力自评表

十七、推荐资源

书籍（按阶段）

课程与论文

实践平台与源码

保持更新

结语