大数跨境
0
0

字节大模型算法实习一面凉经

字节大模型算法实习一面凉经 运筹Offer
2025-12-20
2
↑↑↑↑↑点击上方蓝色字关注我们!





本文仅作为学术分享,如有侵权作删文处理




作者:offer来

链接:

https://www.nowcoder.com/share/jump/1766159001525


1.实习介绍

2.介绍transformer架构

3.transformer架构为什么要切分为多头?

4.讲一下attention的具体计算步骤

5.计算attention的softmax之前为什么要除根号d_k

6.介绍一下transformer位置编码;还了解别的位置编码吗?

7.如果在transformer中,把K去掉,变成Q*Q*V,这样会有什么问题吗?假如不考虑解码器,只考虑编码器内部的attention操作的话,这样会有什么问题?

8.transformer是encoder-decoder架构,而GPT是decoder-only架构,为什么会演变成这样一种形式?为什么把encoder给舍弃掉了?

9.为什么像GPT这种生成式任务,不同时利用encoder-decoder?

10.transformer的FFN层为什么会逐渐演变成MOE层?

11.moe层的负载均衡具体是怎么做的?偏置项b是怎么训练的?你怎么保证有一个机制让偏置项得到变换?照理来说,偏置项b应该放到损失函数中,这应该怎么设计?

12.做agent有哪些框架?

13.做agent的开发范式有哪些?

14.lora微调的核心原理是什么?

15.大模型幻觉了解吗,怎么缓解大模型幻觉?

16.手撕,最长递增子序列

如何发布招聘?


如果你也想发布公司招聘岗位,博士/博士后岗位,请扫描以下二维码或者添加微信号:or_offer 联系我们的工作人员添加请修改备注为:公司/学校+姓名+招聘!





微信公众号后台回复

实习:获取实习岗位投递方式

校招:获取校招岗位投递方式

社招:获取社招岗位投递方式

职场会客厅:获取职场相关直播链接和往期直播视频完整版

留学会客厅:获取留学直播链接和往期直播视频完整版

海外硕博申请:获取客服联系方式

求职群:获取加入【IT算法求职内推群】方式

留学群:获取加入【运筹学海外硕博申请群】方式



【声明】内容源于网络
0
0
运筹Offer
运筹OR帷幄社区旗下的求职和留学资讯平台,聚焦运筹学、大数据、AI等领域,内容涵盖企业招聘、实习内推、职场经历分享以及运筹学海外硕博申请咨询
内容 1337
粉丝 0
运筹Offer 运筹OR帷幄社区旗下的求职和留学资讯平台,聚焦运筹学、大数据、AI等领域,内容涵盖企业招聘、实习内推、职场经历分享以及运筹学海外硕博申请咨询
总阅读307
粉丝0
内容1.3k