

字节大模型算法实习一面凉经

运筹Offer

2025-12-20

↑↑↑↑↑点击上方蓝色字关注我们！

本文仅作为学术分享，如有侵权作删文处理

作者：offer来

链接：

https://www.nowcoder.com/share/jump/1766159001525

1.实习介绍

2.介绍transformer架构

3.transformer架构为什么要切分为多头？

4.讲一下attention的具体计算步骤

5.计算attention的softmax之前为什么要除根号d_k

6.介绍一下transformer位置编码；还了解别的位置编码吗？

7.如果在transformer中，把K去掉，变成Q*Q*V，这样会有什么问题吗？假如不考虑解码器，只考虑编码器内部的attention操作的话，这样会有什么问题？

8.transformer是encoder-decoder架构，而GPT是decoder-only架构，为什么会演变成这样一种形式？为什么把encoder给舍弃掉了？

9.为什么像GPT这种生成式任务，不同时利用encoder-decoder？

10.transformer的FFN层为什么会逐渐演变成MOE层？

11.moe层的负载均衡具体是怎么做的？偏置项b是怎么训练的？你怎么保证有一个机制让偏置项得到变换？照理来说，偏置项b应该放到损失函数中，这应该怎么设计？

12.做agent有哪些框架？

13.做agent的开发范式有哪些？

14.lora微调的核心原理是什么？

15.大模型幻觉了解吗，怎么缓解大模型幻觉？

16.手撕，最长递增子序列

如何发布招聘？

如果你也想发布公司招聘岗位，博士/博士后岗位，请扫描以下二维码或者添加微信号：or_offer 联系我们的工作人员，添加请修改备注为：公司/学校+姓名+招聘！

微信公众号后台回复

实习：获取实习岗位投递方式

校招：获取校招岗位投递方式

社招：获取社招岗位投递方式

职场会客厅：获取职场相关直播链接和往期直播视频完整版

留学会客厅：获取留学直播链接和往期直播视频完整版

海外硕博申请：获取客服联系方式

求职群：获取加入【IT算法求职内推群】方式

留学群：获取加入【运筹学海外硕博申请群】方式

【声明】内容源于网络

运筹Offer

运筹OR帷幄社区旗下的求职和留学资讯平台，聚焦运筹学、大数据、AI等领域，内容涵盖企业招聘、实习内推、职场经历分享以及运筹学海外硕博申请咨询

内容 1337

粉丝 0

运筹Offer 运筹OR帷幄社区旗下的求职和留学资讯平台，聚焦运筹学、大数据、AI等领域，内容涵盖企业招聘、实习内推、职场经历分享以及运筹学海外硕博申请咨询

总阅读307

粉丝0

内容1.3k