大模型应用实战

阿里通义实验室大模型面试题汇总

整理阿里通义实验室(Qwen团队)大模型方向的三轮面试题目,涵盖模型架构、训练优化、推理加速、RAG等核心知识点

·5 分钟阅读·技术

一面

  1. 自我介绍和项目经验

    • 为什么选 Qwen,Qwen 落地的实际效果怎么样
  2. Qwen 的模型结构

    • Qwen 的模型结构是怎么样的
    • 相比于 LLaMA、DeepSeek 有什么区别
  3. 超长上下文处理

    • 对于超长上下文业界一般是怎么做的
    • 你知道 Qwen 是怎么做的吗
  4. MoE 结构

    • 大模型的 MoE 结构相比于 Dense 结构训练的难点在什么地方
    • DeepSeekMoE 为什么效果好,有什么值得我们借鉴创新点
  5. 幻觉问题

    • 怎么缓解大模型的幻觉问题
  6. RLHF

    • 讲一下 RLHF 的流程
    • PPO 和 DPO 算法是什么思想
    • 写一下 PPO 和 DPO 的 Loss 表达式
  7. 代码题

    • Transformer Encoder
  8. 代码题

    • 152. 乘积最大子数组

二面

  1. 自我介绍和项目经验

    • 为什么用 Qwen,Qwen 的优势相比其他开源模型
  2. 其他模型

    • 除了 Qwen,还知道哪些其他模型(如 LLaMA、DeepSeek、GLM...)
  3. DeepSeek 的优势

    • 你觉得 DeepSeek 有哪些好的地方
    • 解释 DeepSeekMoE 和 MLA
  4. LoRA 原理

    • 解释 LoRA 的原理
  5. DeepSpeed 和 ZeRO

    • 你知道 DeepSpeed 吗
    • ZeRO-1、ZeRO-2、ZeRO-3 分别做了哪些优化
  6. 浮点格式

    • 你知道 FP16 和 BF16 的区别吗,包括 FP32 和 INT8
    • 训练大模型时应该如何选择
  7. 内存优化和 FlashAttention

    • 除了 DeepSpeed,训练和推理时 GPU 显存不足还有哪些优化方法
    • FlashAttention 具体是怎么工作的
  8. 代码题

    • 200. 岛屿数量

三面

  1. 自我介绍和项目经验

    • 重点问了 Qwen,在过程中还一起讨论了当前做法的优缺点
    • 是否调研过其他方案等
  2. 开放题

    • 站在你的视角,Qwen 目前还存在哪些问题
  3. 开放题

    • 你觉得目前大模型的上限在哪里
  4. 意向确认

    • 假如给你发了 Offer,会来吗

大模型架构与原理

  1. 为什么现在的主流大模型都是 decoder-only 架构?

  2. 大模型部署框架对比

  3. embedding 模型为何普遍都用 encoder-only 架构

  4. 为什么现在的 LLM 都是 Decoder only 的架构

  5. LLaMA1/2/3 的异同?

  6. 介绍下 LLaMa 关键技术点?

  7. 大模型的参数量为什么设计成 7B, 13B, 33B, 65B 等如此怪异的数字?

  8. 为什么 Qwen 设计成 72B?现在大模型为什么都用 left padding?

  9. RWKV、Mamba 和 Mamba-2 的核心原理和创新之处是什么?


Transformer 相关

  1. Transformer 中前馈层(FFN) 的作用是什么?

  2. 为什么 transformer 的 FFN 需要先升维再降维?

  3. 大模型幻觉是什么,如何才能缓解这个问题?

  4. 为什么 transformer 是 LayerNorm?

  5. 为什么 NLP 用 Layernorm 而不是 batchnorm?

  6. Transformers 中 FFN 的作用?

  7. Transformers 中的 Position Embedding 的作用?

  8. 为什么 Bert 的三个 Embedding 可以进行相加?


Attention 机制

  1. BERT 中的多头注意力机制—为什么需要多头?

  2. Attention 为什么要除以根号 d?

  3. Self-Attention 的时间复杂度/空间复杂度是怎么计算的?

  4. Transformers 中的 Softmax 可以并行加速么?

  5. LSTM、CNN 相对于 Self-Attention 存在什么问题?

  6. Attention 为什么使用 Multi Head?

  7. 介绍一下 Multi-head Attention?


推理加速与优化

  1. 为什么 vllm 能够加快大模型推理速度?

  2. 如何解决大模型推理过程中的延迟问题?

  3. 为什么 LLM 推理加速有 KV Cache 而没有 Q Cache?

  4. 为什么 KV Cache 没有 Q-Cache?

  5. KV Cache 原理是什么?

  6. 大模型中的响应延迟怎么解决?

  7. 如何计算大模型推理服务的每秒请求数(QPS)?

  8. 首 Token 延时(TTFT)与平均输入 Token 数量之间存在怎样的关系?

  9. 在实际聊天应用中,如何估算并发用户数(VU)?

  10. 大模型提速有哪些比较好的策略?

  11. 大模型上线前为什么要做推理优化?

  12. 大模型推理时,显存中有那几部分数据?

  13. Transformer 内存优化

  14. 如何根据模型参数量估计需要的显存?


RAG (检索增强生成)

  1. 如何让 LLM 基于问题和 context 生成高质量的回答?

  2. 如何针对比较长的文本表格进行检索?

  3. 如何优化检索过程,以减少延迟和提高效率?

  4. 如何处理数据中的偏差和不一致性?

  5. RAG 有哪些流程,流程里各有什么优化手段?

  6. advanced-RAG 你知道有哪些?

  7. self-rag 有哪些 insight

  8. 结合工作业务场景,设计知识库问答方案?

  9. 如何评价 RAG 项目效果的好坏?

  10. RAG 使用外挂知识库主要为了解决什么问题?

  11. ragflow 和 llamaindex 区别?


面试总结

一面总结

一面整体难度感觉还是比较大的,考察的内容更加注重对大模型整体的理解,面的时间也比较久,通义 bar 还是高呀。

二面总结

二面问的模型结构相对少一些,更多是关于训练和推理优化,偏向底层一些。从 DeepSeek 的趋势来看,降低大模型的时间复杂度和空间复杂度应该是接下来一段时间的重点。

三面总结

三面还是常规的大老板面,相对气氛比较轻松,会更加看重自己对于大模型的思考。

整体总结

整体面下来感觉难度还是蛮大的,几乎各个方面都被考察到了,通义目前应该算是阿里系 bar 最高的一个部门了吧,之前面达摩院压力都没有这么大。