
链接:
https://www.nowcoder.com/share/jump/1766159001525
1.实习介绍
2.介绍transformer架构
3.transformer架构为什么要切分为多头?
4.讲一下attention的具体计算步骤
5.计算attention的softmax之前为什么要除根号d_k
6.介绍一下transformer位置编码;还了解别的位置编码吗?
7.如果在transformer中,把K去掉,变成Q*Q*V,这样会有什么问题吗?假如不考虑解码器,只考虑编码器内部的attention操作的话,这样会有什么问题?
8.transformer是encoder-decoder架构,而GPT是decoder-only架构,为什么会演变成这样一种形式?为什么把encoder给舍弃掉了?
9.为什么像GPT这种生成式任务,不同时利用encoder-decoder?
10.transformer的FFN层为什么会逐渐演变成MOE层?
11.moe层的负载均衡具体是怎么做的?偏置项b是怎么训练的?你怎么保证有一个机制让偏置项得到变换?照理来说,偏置项b应该放到损失函数中,这应该怎么设计?
12.做agent有哪些框架?
13.做agent的开发范式有哪些?
14.lora微调的核心原理是什么?
15.大模型幻觉了解吗,怎么缓解大模型幻觉?
16.手撕,最长递增子序列
如何发布招聘?
如果你也想发布公司招聘岗位,博士/博士后岗位,请扫描以下二维码或者添加微信号:or_offer 联系我们的工作人员,添加请修改备注为:公司/学校+姓名+招聘!
微信公众号后台回复
实习:获取实习岗位投递方式
校招:获取校招岗位投递方式
社招:获取社招岗位投递方式
职场会客厅:获取职场相关直播链接和往期直播视频完整版
留学会客厅:获取留学直播链接和往期直播视频完整版
海外硕博申请:获取客服联系方式
求职群:获取加入【IT算法求职内推群】方式
留学群:获取加入【运筹学海外硕博申请群】方式

