第一份实习
最终去向 奇绩创坛 行研-大模型算法实习生(模型评测方向)
- 自我介绍
- 手撕代码 P1112 波浪数 - 洛谷
- 对大模型有哪些了解(提到了Deepseek)Deepseek R1 的原理、MLA和MTP是否了解(并不了解)、其他魔改 attention 计算的方法(本来想说 linear attention 结果忘了……)
- 对同一个基座模型用三种方法训练得到 A, B, C 三个模型,输入“静夜思的作者是谁,请用一句话回答”。A 回答作者是李白,随后用很长的篇幅展开介绍李白; B 不断重复“静夜思的作者是李白”;C 回答“静夜思的作者是杜甫”。分析这几个模型分别存在的问题,给出可能的解决方案。(A不能遵循指令,需要在对应数据集上SFT、RL中给一个长度惩罚?;B对EOS的学习不够,需要调整repetition penalty、数据集长度过短,也可能是模型上下文长度太小?;C产生幻觉,需要充分学习语料、用RAG辅助、引入思维链)
- 长思考缓解幻觉问题是什么原理,在思考过程中回忆起知识,还是通过思考去逼近真实答案
- 9.9 和 9.11 哪个大、Strawberry有几个r 这种问题为什么会难住大模型
- 推理模型目前还有哪些方面可以优化(思考时间太长、很多思考没必要)
反思:
- 简历
OFFER
聚流沙科技 大模型RAG算法
初创小企业,线下面的,自我介绍完只问了半小时简历项目
一面挂
Mininax 算法
- 自我介绍
- 手撕斜向蛇形矩阵,有点坑了,做了20分钟
- Python 和 C 的区别,原理上讲为什么 C 速度快
- 问对 OS 有哪些了解(没有太多了解)
- 简单问了问项目
给我干哪来了,这还是算法岗吗?准备半天的算法是一点没问啊
一面挂
奇岱松科技
约50人 to G 小厂
- 自我介绍
- 讲讲 o3 o4mini (还没有仔细看)
- 深挖项目,评测指标用的什么,和同类模型对比
- 如果要构建灾后图像识别数据集应该怎么构建?数据量多少?怎么获取?
- 能否接受标数据的工作?(回答只要不占工作大部分就行)对哪方面工作感兴趣?
一面挂
商汤一面
- 自我介绍
- 深挖项目,项目具体工作、评测指标
- Transformer 相比 CNN 在处理图像方面的优势是什么
- 多模态模型用过哪些
- 是否自己训练过大模型?(只知道原理)讲一讲原理(三阶段,RL提到Deepseek)讲讲Deepseek
- 代码题
商汤二面
拷打项目,追问简历上项目所涉及的所有技术细节,寄
中科闻歌
- 自我介绍
- 项目
- 没了
小米语音算法
- 自我介绍
- 项目
- 是否了解语音相关技术(了解,事前专门看了较新的语音模型如MiniMax Speech 02)
- 你的背景和我们的岗位要求不符(那你捞我的简历就是为了给我撂下一句这个吗?)