AI 全栈工程师成长手册
从入门到精通:算法 × 架构 × 工程 × 管理的完整知识体系与实战方法论。
用法:① 作为学习路线图按阶段推进;② 项目开发时按章节查阅对应 Checklist;③ 定期回顾「能力自评表」校准成长方向。
目录
- 角色定位与能力地图
- 基础知识体系
- 机器学习与深度学习
- 大模型(LLM)专题
- 数据工程
- 后端工程
- 前端工程
- 系统架构设计
- 性能优化与算子优化
- MLOps:模型部署与运维
- 测试与 Debug 方法论
- 安全、合规与成本
- 项目管理与团队协作
- 项目全生命周期 Checklist
- 成长路线:入门 → 进阶 → 精通
- 能力自评表
- 推荐资源
一、角色定位与能力地图
1.1 什么是 AI 全栈工程师
能够独立完成「需求 → 算法验证 → 系统设计 → 开发 → 部署 → 运维 → 迭代」全链路的工程师。核心价值不是每个领域都最深,而是:
- 端到端交付能力:一个人能把想法变成线上可用的产品;
- 跨域翻译能力:把产品需求翻译成算法指标,把算法约束翻译成架构决策;
- 瓶颈定位能力:知道问题出在数据、模型、工程还是产品哪一层。
1.2 能力地图(T 型结构)
1 | |
建议:先铺横向(612 个月),再根据兴趣和市场选纵向深耕(12 年)。绝大多数岗位要求 = 横向及格 + 一个纵向突出。
二、基础知识体系
2.1 数学(够用即可,按需加深)
| 领域 | 必须掌握 | 用在哪 |
|---|---|---|
| 线性代数 | 矩阵乘法、特征值、SVD、范数 | 一切深度学习的语言 |
| 概率统计 | 贝叶斯、分布、期望/方差、假设检验、极大似然 | 损失函数、评估、AB 测试 |
| 微积分 | 偏导、链式法则、梯度 | 反向传播 |
| 优化 | 凸优化概念、SGD/Adam、学习率调度 | 训练调参 |
| 信息论 | 熵、交叉熵、KL 散度 | 损失函数、蒸馏 |
学习方式:不要从头啃教材,遇到看不懂的公式再回头补对应章节。
2.2 计算机科学基础
- 数据结构与算法:哈希、堆、树、图、动态规划——面试必备,工程中用于设计缓存、索引、调度。
- 操作系统:进程/线程/协程、内存管理、IO 模型(epoll)、虚拟内存——理解高并发和性能问题的根基。
- 计算机网络:TCP/HTTP/HTTPS/WebSocket/gRPC、DNS、负载均衡——分布式系统的血管。
- 数据库原理:索引(B+树)、事务(ACID)、隔离级别、锁、MVCC——后端的核心。
- 编译与硬件基础(进阶):CPU 缓存层级、SIMD、GPU 体系结构(SM、warp、显存带宽)——算子优化的前提。
2.3 编程语言
| 语言 | 定位 | 掌握程度 |
|---|---|---|
| Python | 算法、后端、脚本,主力语言 | 精通:类型注解、异步、装饰器、性能陷阱(GIL) |
| SQL | 数据处理的通用语言 | 精通:窗口函数、执行计划、索引优化 |
| TypeScript/JS | 前端 + Node 工具链 | 熟练 |
| Go 或 Rust | 高性能服务、基础设施 | 熟练其一 |
| C++/CUDA | 算子优化、推理引擎 | 按纵向方向选学 |
| Shell | 运维、自动化 | 熟练 |
2.4 工程基本功(每天都在用)
- Git:分支策略(trunk-based / git-flow)、rebase vs merge、code review 流程。
- Linux:常用命令、systemd、性能排查工具(top/htop/iostat/ss/strace)。
- Docker:镜像分层、多阶段构建、compose;理解容器 ≠ 虚拟机。
- IDE 与 AI 工具:熟练使用 AI 辅助编程(Cursor 等),但保持代码审查能力——AI 生成的代码你必须能逐行解释。
三、机器学习与深度学习
3.1 经典机器学习(不要跳过)
- 线性/逻辑回归、决策树、随机森林、GBDT(XGBoost/LightGBM)、SVM、KMeans、PCA。
- 为什么重要:表格数据场景 GBDT 仍是王者;理解过拟合/正则化/偏差方差权衡是所有模型调优的基础;很多业务问题用简单模型 + 好特征就能解决,成本远低于深度学习。
3.2 深度学习核心
- 基础组件:全连接、卷积、RNN/LSTM、Attention、Transformer(必须能手写一遍)、归一化(BN/LN/RMSNorm)、残差连接。
- 训练要素:损失函数选择、优化器、学习率调度(warmup + cosine)、梯度裁剪、混合精度(AMP)、梯度累积。
- 正则化手段:Dropout、数据增强、早停、标签平滑、权重衰减。
- 框架:PyTorch 为主(必须熟练 autograd、DataLoader、分布式 DDP/FSDP)。
3.3 评估方法论(比训练更重要)
- 分类:精确率/召回率/F1/AUC,理解业务上 FP 和 FN 哪个代价更高。
- 回归:MAE/RMSE/R²。
- 排序:NDCG/MRR。
- 生成:BLEU/ROUGE 已不够,需要 LLM-as-judge + 人工评估。
- 铁律:训练/验证/测试集严格隔离;警惕数据泄漏(时间泄漏、ID 泄漏、预处理泄漏);线下指标提升 ≠ 线上效果提升,最终以 AB 测试为准。
3.4 算法选型决策树
1 | |
四、大模型(LLM)专题
4.1 原理层(理解到能讲清楚)
- Transformer Decoder 架构、KV Cache、位置编码(RoPE)、tokenizer(BPE)。
- 训练三阶段:预训练 → SFT → 对齐(RLHF/DPO)。
- 推理过程:prefill vs decode、采样参数(temperature/top_p)、上下文窗口的本质。
- Scaling Law 与涌现能力的基本认识。
4.2 应用层(当前就业最大需求)
- Prompt Engineering:角色设定、few-shot、思维链、结构化输出(JSON mode)、prompt 版本管理与回归测试。
- RAG:文档切分策略、Embedding 选型、向量库(pgvector/Milvus/Qdrant)、混合检索(向量+BM25)、重排序(rerank)、引用溯源。RAG 效果差的原因 90% 在检索而不是生成。
- Agent:工具调用(function calling)、ReAct 模式、规划与反思、多 Agent 编排、MCP 协议;重点是可控性设计——超时、步数上限、人工确认点。
- 微调:LoRA/QLoRA 实操、数据配比、过拟合判断、灾难性遗忘。
- 评估:建立自己的评测集,LLM-as-judge + 抽样人工,每次改动跑回归。
4.3 LLM 工程化要点
- 流式输出(SSE)、token 计数与成本核算、上下文管理(截断/摘要策略)。
- 结构化输出校验与重试、幂等设计。
- 多供应商抽象层(OpenAI/Anthropic/开源自托管可切换)。
- 缓存策略:精确缓存 + 语义缓存。
五、数据工程
80% 的模型效果问题出在数据上。数据能力是 AI 工程师被严重低估的核心竞争力。
5.1 数据全流程
1 | |
- 采集:埋点设计、爬虫合规、第三方数据协议审查。
- 清洗:去重(精确+模糊)、异常值、缺失值策略、格式归一化;脏数据检测要自动化成 pipeline。
- 标注:标注规范文档(含边界 case 裁决规则)、多人标注求一致性(Kappa 系数)、主动学习降低标注量。
- 版本管理:数据集像代码一样打版本(DVC / lakeFS / 简单的快照+manifest),任何模型必须能追溯到训练数据版本。
- 回流闭环:线上 bad case → 自动收集 → 标注队列 → 加入训练集 → 新版本模型。这个闭环的效率决定产品迭代速度。
5.2 数据基础设施
- 批处理:Spark / 单机 Polars、DuckDB(中小规模首选,别动不动上集群)。
- 流处理:Kafka + Flink(确有实时需求才用)。
- 存储分层:对象存储(原始数据)→ 数仓(清洗后)→ 特征库/向量库(服务消费)。
- 调度:Airflow / Dagster / Prefect,任务要幂等、可重跑、有告警。
5.3 数据质量红线
- Schema 校验前置(pydantic / Great Expectations);
- 训练/服务特征一致性(training-serving skew 是经典事故源);
- 监控数据分布漂移(PSI / KL 散度),漂移告警先于效果下降。
六、后端工程
6.1 核心能力
- Web 框架:FastAPI(Python 生态首选,类型驱动 + 异步 + 自动文档);Go 的 Gin/Echo 备选。
- API 设计:RESTful 规范、版本化(/v1/)、分页、错误码体系(业务码 ≠ HTTP 码)、OpenAPI 文档即契约。
- 异步与并发:理解 async/await 的适用场景(IO 密集)、线程池处理 CPU 密集、协程陷阱(阻塞调用拖死事件循环)。
- 数据库实战:连接池、索引设计、慢查询分析(EXPLAIN)、N+1 问题、事务边界最小化、分页深翻页优化。
- 缓存:Redis 数据结构应用、缓存穿透/击穿/雪崩对策、缓存一致性策略(先更新库再删缓存)。
- 消息队列:至少精通一个(Kafka/RabbitMQ/Redis Stream),理解 at-least-once 语义下的幂等消费。
6.2 AI 服务后端的特殊模式
- 长任务模式:提交任务 → 返回 task_id → 轮询 / WebSocket / Webhook 通知;任务状态机:
pending → running → succeeded / failed / cancelled。 - 流式响应:SSE 实现、断线续传、中途取消的资源释放。
- 限流与背压:令牌桶限流(按用户/按租户)、队列深度监控、优雅拒绝(429 + Retry-After)。
- 超时与重试矩阵:每层设超时(网关 < 业务 < 推理总和),重试带指数退避 + 抖动,区分可重试(超时、503)与不可重试(400、内容违规)。
- 成本埋点:每个请求记录 token 数 / GPU 秒 / 模型版本,按用户/功能聚合。
6.3 可观测性(必须项,不是可选项)
- 结构化日志(JSON),trace_id 贯穿全链路;
- 指标:RED 方法(Rate/Errors/Duration)+ 队列深度 + GPU 利用率;
- 分布式追踪:OpenTelemetry;
- AI 特有:输入输出抽样存档、置信度分布、模型版本标记。
七、前端工程
7.1 核心技术栈
- React + TypeScript(主流首选)、Next.js(全栈/SSR)、状态管理(Zustand/TanStack Query)、样式(Tailwind)。
- 移动端:React Native / Flutter 选其一了解即可,除非岗位明确要求。
7.2 AI 产品前端的关键模式
- 不确定性 UX:骨架屏、流式渲染(打字机效果)、进度反馈、可取消、失败重试入口、超时友好提示。管理用户对”慢和不确定”的预期是 AI 前端的核心命题。
- 结果可编辑 + 反馈采集:AI 输出允许修正,修正/点踩行为回传作为标注数据。
- 大文件处理:分片上传 + 预签名 URL 直传对象存储,前端做断点续传。
- 实时通信:SSE(单向流式首选,简单可靠)vs WebSocket(双向)选型。
- 错误边界:AI 输出可能是畸形 JSON/超长文本/包含危险内容,渲染层必须有防御(sanitize、长度截断、Markdown 安全渲染)。
7.3 工程化
- 组件设计:容器/展示分离、设计系统意识(统一 token:颜色/间距/字号)。
- 性能:代码分割、虚拟列表(长会话/大表格必备)、防抖节流、乐观更新。
- 测试:关键交互写集成测试(Playwright),别追求 100% 单测覆盖。
八、系统架构设计
8.1 架构设计的思维框架
每个架构决策回答四个问题:
- 量级:QPS 多少?数据多大?用户多少?——没有量级就没有架构,1k QPS 和 100k QPS 是两个世界。
- SLA:可用性目标(99.9%?)、延迟目标(P99 < ?ms)、一致性要求(强一致还是最终一致)。
- 变化轴:未来最可能变的是什么(流量?功能?模型?),为变化留接口,为不变做优化。
- 成本:人力成本 + 机器成本 + 维护成本,过度设计是负债。
8.2 AI 数据处理服务的参考架构
1 | |
8.3 关键架构原则
- 推理服务独立部署:GPU 与 CPU 服务扩缩容逻辑完全不同,必须解耦。
- 无状态业务层:状态全部下沉到存储层,服务才能随意扩缩容。
- 队列削峰解耦:重任务一律异步化,消费者按 GPU 吞吐拉取。
- 幂等性:所有写操作支持幂等(幂等键/版本号),因为重试无处不在。
- 故障设计:每个依赖都会挂——降级方案(小模型兜底/规则兜底/排队提示)、熔断、舱壁隔离。
- 多租户(ToB):数据隔离(行级/库级)、配额、优先级队列。
- 演进式架构:单体起步 → 按瓶颈拆分。一上来就微服务全家桶是最常见的自杀方式。
8.4 技术选型方法论
- 默认选「无聊的技术」(PostgreSQL > 新潮数据库),创新预算只花在核心差异点上;
- 选型写 ADR(架构决策记录):背景、选项、权衡、决定,三个月后还能看懂为什么;
- 可逆决策快速做,不可逆决策(数据库、云厂商、核心协议)慢慢做。
九、性能优化与算子优化
9.1 优化总原则
没有 profiling 就没有优化。 凭感觉优化 = 浪费时间 + 引入复杂度。
工具箱:py-spy、torch.profiler、nsys(Nsight Systems)、ncu(Nsight Compute)、火焰图、EXPLAIN ANALYZE。
9.2 按 ROI 排序的优化路径
第一层:系统层(最便宜,先做)
- 缓存:相同输入直接命中;语义缓存。
- 批处理:dynamic batching 把零散请求攒成 batch,GPU 吞吐提升数倍。
- 并发:异步 IO、连接复用、预热(避免模型冷加载)。
- 数据链路:减少序列化开销、零拷贝、CPU↔GPU 传输用 pinned memory。
第二层:模型层
- 量化:FP16 → INT8 → INT4(AWQ/GPTQ),精度损失换吞吐。
- 蒸馏:大模型教小模型,简单请求分流到小模型。
- 推理引擎:vLLM(LLM 首选,PagedAttention + continuous batching)、TensorRT、ONNX Runtime——裸跑 PyTorch 推理是浪费。
- 结构优化:剪枝、投机解码(speculative decoding)。
第三层:算子层(最贵,最后做)
- 先用现成的:FlashAttention、
torch.compile、CUDA Graph、融合算子库。 - 确认瓶颈算子且现有方案覆盖不到,才手写 Triton / CUDA kernel。
- 手写算子必备知识:GPU 内存层级(HBM/SMEM/寄存器)、warp 调度、访存合并、occupancy、roofline 模型(判断 compute-bound 还是 memory-bound)。
- 多数”慢”是 memory-bound:优化访存模式收益 > 优化计算。
9.3 常见性能陷阱
- Python for 循环处理张量(应向量化);
- DataLoader 成为瓶颈(num_workers、预取、解码放 GPU);
- 同步点过多(
.item()、.cpu()频繁调用打断 GPU 流水); - 显存碎片(长短序列混跑);
- 数据库慢查询拖死整个服务(监控慢查询日志)。
十、MLOps:模型部署与运维
10.1 模型交付标准化
模型不是一个 .pt 文件,而是一个交付包:
1 | |
10.2 部署流程
- 注册:模型进模型仓库(MLflow Registry / 对象存储+元数据),带训练数据版本、代码 commit、指标。
- 打包:Docker 锁定 CUDA/框架版本;导出推理格式后做数值一致性校验。
- 压测:确定单实例吞吐与 P99 延迟 → 推算资源量 → 设定扩缩容策略(注意 GPU 冷启动几十秒,扩容要提前量)。
- 灰度:Shadow mode(跑但不生效,对比新旧输出)→ 5% 流量 → 50% → 全量;每阶段看业务指标不只看技术指标。
- 回滚:一键回滚必须是分钟级,模型版本路由配置化,不重新部署。
10.3 线上监控(两层缺一不可)
| 层 | 监控什么 | 工具 |
|---|---|---|
| 服务健康 | 延迟/错误率/QPS/GPU 利用率/显存/队列深度 | Prometheus + Grafana |
| 模型健康 | 输入分布漂移、输出置信度分布、抽样人工评估、bad case 率 | 自建 + Evidently 等 |
模型不会报错,只会悄悄变差——模型健康监控是 AI 服务区别于传统服务的核心运维项。
10.4 CI/CD for ML
- 代码 CI:lint + 单测 + 集成测试;
- 模型 CI:评测集回归(指标不回退才能合入);
- 数据 CI:schema 校验 + 分布检查;
- CD:GitOps(ArgoCD)/ 流水线自动化,环境分级 dev → staging → prod。
十一、测试与 Debug 方法论
11.1 测试金字塔(AI 版)
1 | |
- 评测集是 AI 项目的”单元测试”:几十~几百条带标准答案的用例,覆盖正常 + 边界 + 对抗 case,持续扩充。
- 数据处理函数必须有单测(清洗、解析、转换是 bug 重灾区)。
- 集成测试 mock 掉模型(用固定输出),测的是工程链路而不是模型效果。
11.2 工程 Bug 调试(确定性问题)
- 复现:构造最小复现用例,不能稳定复现的先加日志/监控收集证据。
- 定位:二分法缩小范围(版本二分 git bisect、链路二分、数据二分)。
- 证据驱动:看日志和 trace 而不是猜;分布式问题用 trace_id 串全链路。
- 修复后:补回归测试,问一句”同类问题还有哪里”。
11.3 效果 Bug 调试(概率性问题)
- 固定变量:锁定随机种子、模型版本、数据版本,确认可复现性。
- 分层 dump:输入 → 预处理后 → 模型原始输出 → 后处理 → 展示,逐层落盘对比,定位是哪一层引入的偏差。
- Bad case 归类:批量收集错误样本,聚类分析——错误集中在某类输入?数据漂移?标注噪声?逐类解决而非逐条修。
- 对照实验:每次只改一个变量,用评测集量化前后差异。
- 经典陷阱排查清单:训练/推理预处理不一致、tokenizer 版本不一致、数值精度(FP16 溢出)、数据泄漏、标签错误。
11.4 线上故障处理(SRE 基本功)
- 第一优先级是止血(回滚/降级/扩容),不是找根因;
- 故障后写复盘(timeline、根因、action items),对事不对人;
- 大事故的根因往往是多个小问题叠加——修系统而不是修单点。
十二、安全、合规与成本
12.1 应用安全
- 基础:HTTPS 全站、SQL 注入/XSS/CSRF 防护、依赖漏洞扫描、密钥管理(绝不进代码库,用 Vault/环境变量/KMS)。
- 认证授权:OAuth2/JWT、RBAC、API key 轮换、最小权限原则。
- AI 特有:
- Prompt 注入防护(用户输入与系统指令隔离、输出过滤);
- 模型输出内容安全(审核 API / 规则过滤);
- 训练数据投毒意识;
- 模型文件供应链安全(不加载不可信 pickle)。
12.2 数据合规
- 收集前:隐私政策、用户授权(数据是否可用于训练要单独授权);
- 处理中:脱敏(PII 识别与遮蔽)、加密(传输 TLS + 存储加密)、访问审计;
- 法规意识:GDPR / 个保法 / 数据出境规定 / 行业规范(金融、医疗尤严);
- 用户权利:数据导出、删除权(注意:已训练进模型的数据如何处理要提前设计)。
12.3 成本工程(AI 产品的生死线)
- 单位经济模型:算清每请求成本(token/GPU 秒)vs 每请求收入,毛利为负的功能要么提价要么降本要么砍掉。
- 降本手段优先级:缓存命中 > 小模型分流 > 量化 > 批处理 > 竞价实例 > 自托管。
- 预算告警:按用户/功能/租户设成本监控与熔断(防止被刷爆)。
- GPU 利用率是核心指标:< 40% 说明架构有问题(batch 不够、调度差、资源闲置)。
十三、项目管理与团队协作
13.1 AI 项目管理的特殊性
- 双轨迭代:工程轨(确定性,按 sprint 排期)+ 算法轨(探索性,按实验周期 + 时间盒管理)。算法任务不承诺”何时达到 X 指标”,承诺”投入 N 天给出结论与下一步建议”。
- PoC 先行:立项前用时间盒(1~2 周)验证技术可行性,明确 go/no-go 标准。
- 指标对齐:开工前产品、算法、工程三方对齐成功指标(业务指标 → 算法指标的映射),写进文档。
13.2 协作交付物标准化
| 交付物 | 内容 |
|---|---|
| 需求文档 PRD | 用户故事、成功指标、边界与非目标 |
| 技术方案 / ADR | 架构图、接口契约、选型权衡、风险 |
| 模型卡片 | schema、指标、资源、缺陷、版本 |
| 实验记录 | 用 MLflow/W&B,禁止 Excel + 口头传播 |
| Runbook | 部署步骤、回滚步骤、告警处理手册 |
| 复盘文档 | 故障/里程碑后的经验沉淀 |
13.3 沟通与领导力(从工程师到大牛的分水岭)
- 向上沟通:用业务语言汇报(收入/成本/风险),不要堆技术细节;坏消息早说。
- 跨职能翻译:给产品讲清”模型能做什么不能做什么”,给算法讲清”工程约束是什么”。
- Code Review 文化:评审看设计与正确性而非风格(风格交给 linter);评论对事不对人。
- 写作能力:设计文档、复盘、技术分享——写作是放大影响力的杠杆,大牛都是把事情讲清楚的人。
- 带人:把任务拆到他人可执行的粒度、容忍短期效率损失换团队成长。
十四、项目全生命周期 Checklist
每个新项目过一遍,按需裁剪。
Phase 0:立项(1~2 周)
- 问题定义清晰:为谁解决什么问题,现状如何解决
- 成功指标量化:业务指标 + 算法指标 + 可用线/理想线
- PoC 验证模型效果达到可用线(时间盒,go/no-go)
- 数据可得性确认(来源、规模、合规、标注成本)
- 单位经济测算(成本 vs 收益粗算)
- 竞品与替代方案调研(为什么不直接用现成产品/API)
Phase 1:设计(1 周)
- 技术方案文档 + 架构图 + ADR
- API 契约定义(OpenAPI),前后端/算法工程接口冻结
- 数据 schema 与版本策略
- 非功能需求明确:QPS、P99、可用性、安全合规要求
- 降级与兜底方案设计
- 里程碑拆解与排期(算法任务用时间盒)
Phase 2:开发(迭代进行)
- 数据 pipeline 先行(采集→清洗→版本化)
- 评测集建立(先于模型迭代)
- 工程链路打通(用 mock 模型跑通端到端)
- 模型迭代(实验记录、每版跑评测集回归)
- 可观测性同步建设(日志/指标/追踪/成本埋点)
- 安全检查(密钥管理、注入防护、权限)
- CI 全绿:单测 + 集成测试 + 评测集回归
Phase 3:上线(1~2 周)
- 压测达标,扩缩容策略配置
- 灰度计划(shadow → 5% → 全量)+ 一键回滚验证过
- 监控告警配置(服务健康 + 模型健康 + 成本)
- Runbook 完成,值班安排
- 数据回流管道就绪(bad case 收集、用户反馈入口)
Phase 4:迭代(持续)
- 周期性查看:业务指标、模型健康、成本、bad case
- 数据回流 → 标注 → 再训练的闭环跑起来
- AB 测试驱动模型/功能升级
- 季度技术债清理与架构回顾
- 复盘沉淀(故障复盘 + 里程碑复盘)
十五、成长路线:入门 → 进阶 → 精通
阶段一:入门(0~6 个月)—— 能跑通
目标:独立完成一个端到端小项目(如:文档智能问答服务)。
- Python 扎实 + SQL + Git + Linux 基础
- ML/DL 核心概念 + PyTorch 入门(跑通训练和推理)
- FastAPI 写出带数据库的 CRUD 服务
- React 写出能调 API 的简单前端
- Docker 打包部署到一台云服务器
- 里程碑项目:RAG 问答应用(前端 + 后端 + 向量检索 + LLM API),部署上线给真人用
阶段二:进阶(6~18 个月)—— 能做好
目标:达到中级岗位水平,对系统有质量意识。
- 深度学习进阶:手写 Transformer、微调实操(LoRA)、读经典论文(每月 2~4 篇)
- 后端进阶:消息队列、缓存、分布式基础、压测与性能调优
- 工程化:CI/CD、可观测性三件套、测试体系
- MLOps 入门:模型版本管理、灰度发布、监控
- 架构入门:读《DDIA》,给自己的项目写技术方案文档
- 里程碑项目:带异步任务队列 + 独立推理服务 + 监控告警的生产级 AI 服务,扛住真实流量;做一次量化/批处理优化并量化收益
阶段三:精通(18 个月+)—— 能扛事
目标:高级/资深水平,选定纵向方向深耕,具备技术领导力。
- 纵向深耕(选 1~2 个):
- 推理优化:CUDA/Triton、vLLM 源码、roofline 分析
- 平台架构:高并发设计、ML 平台建设、多租户系统
- 算法:论文复现与改进、领域模型训练
- 应用:复杂 Agent 系统、行业解决方案
- 软实力:技术方案评审、带项目、带人、写作与分享
- 视野:关注成本与商业模式,能参与产品决策
- 里程碑:主导一个多人协作项目从 0 到 1 上线并持续运营;做一次公开技术分享/开源贡献;能在故障时镇得住场
贯穿始终的习惯
- 以战代练:知识不落地到项目 = 没学会。每个阶段都要有上线的东西。
- 写学习笔记/博客:费曼学习法,讲不清楚 = 没懂。
- 读源码:每个阶段精读一个项目源码(FastAPI → vLLM → 按方向选)。
- 建立个人知识库:踩坑记录、决策模板、代码片段库,复利积累。
- 用 AI 加速学习:让 AI 当导师提问/出题/review 你的代码,但核心概念必须自己推导一遍。
十六、能力自评表
每季度自评一次:1 = 听说过,2 = 用过,3 = 熟练,4 = 精通能教人,5 = 领域专家。
| 能力项 | 当前 | 目标 | 行动 |
|---|---|---|---|
| Python / SQL | |||
| 数据结构算法 / CS 基础 | |||
| ML/DL 原理与训练 | |||
| LLM 应用(RAG/Agent/微调) | |||
| 数据工程 | |||
| 后端开发与数据库 | |||
| 前端开发 | |||
| 系统架构设计 | |||
| 性能优化 / 算子 | |||
| MLOps / 部署运维 | |||
| 测试与 Debug | |||
| 安全与合规 | |||
| 成本工程 | |||
| 项目管理与沟通 | |||
| 写作与影响力 |
岗位胜任参考:初级 = 多数 23;中级 = 多数 3,主攻项 4;高级 = 多数 34,主攻项 4~5 + 项目领导经验。
十七、推荐资源
书籍(按阶段)
- 入门:《动手学深度学习》(d2l.ai)、《流畅的 Python》
- 进阶:《Designing Data-Intensive Applications》(DDIA,架构圣经)、《机器学习系统设计》(Chip Huyen)、《SQL 性能优化》类
- 精通:《Site Reliability Engineering》(Google SRE)、《A Philosophy of Software Design》、CUDA Programming Guide
课程与论文
- Stanford CS231n(CV)/ CS224n(NLP)/ CS25(Transformers)
- Andrej Karpathy 的 “Neural Networks: Zero to Hero”(手写 GPT,强烈推荐)
- 经典论文:Attention Is All You Need、GPT 系列、LoRA、FlashAttention、vLLM (PagedAttention)
- MLOps:Google 的 “Hidden Technical Debt in Machine Learning Systems”
实践平台与源码
- Kaggle(数据与建模手感)、Hugging Face(模型生态)
- 精读源码:FastAPI、vLLM、LangChain(批判性地读)、nanoGPT
- 关注工程博客:OpenAI/Anthropic/Meta AI/字节/美团技术博客
保持更新
- 每周固定 2~3 小时读论文/博客/release note;
- 加入 1~2 个高质量社区(HN、Reddit r/MachineLearning、相关 Discord);
- 原则:新技术先问”解决了我什么问题”,不追热点,按需引入。
结语
大牛 = 扎实的基础 × 端到端交付的项目积累 × 把事讲清楚的表达力 × 时间复利。
这份手册是地图,不是终点。把它放在每个项目的开工 checklist 里,每季度回顾一次自评表,两年后回头看,你已经走出很远。