『保研经历』保研经历Part3——总结与经验分享
『保研经历』保研经历Part3——总结与经验分享写本篇时是十一最后一天,最近得了保研后综合征,一歇就是一整天,拖拖拉拉直至最后一天才完成本篇撰写。实际上保研人的大四并不会清闲,假后又要面对无尽的任务,有时无比怀念初高中时肆无忌惮和朋友们打游戏的假期,那些都已一去不复返🤦。
前言前文洋洋洒洒写了很多,更多关注一路走来的重大事件盘点与面试的技术细节,多是留给未来的自己回味的。当然,作为一篇保研经验贴,我同样希望大家因我的文章而受益。本篇进行一个浓缩精华的经验分享,不同于大多数老生常谈的如何去提升背景等,我想就我本心出发,谈谈本保研小白一路的成长与感悟。
最后の总结将时间拉回三年前,我对计算机的了解程度仅仅是用它打各种游戏,还总是将游戏下进C盘,高中信息老师教python时我都会嗤之以鼻。然而高考后,由于计算机专业的火爆,我脑子一热选择了北航信息大类,并在入学时便将最火爆的计院当作我的努力目标。我想,这冥冥中自有缘分,如果大类内网安最出名,门槛最高,我或许也会坚定的选择网安,无论如何,我很确定我最初并不是因为了解计算机并清楚学计算机会收获什么而选择了你6。
至如今,保研结束,这意味着至少 ...
『保研经历』保研经历Part2——预推免
『保研经历』保研经历Part2——预推免前言随着按下拟录取按钮的那一刻,五个月的保研之路暂告一段落,我做出了从当前视角看来最正确的决定,选择了中科大和上海人工智能实验室GVLab的联培直博,放弃了浙大cs学硕和北航cs学硕。
自我介绍相比较于夏令营期间,背景方面有变动:
一篇能源化工领域(用深度学习方法解决工业问题)Sci一区论文在投
一篇对抗样本攻击领域论文完成度80%(即可以拿出来细讲的程度)待投
智谱AI大模型算法岗实习生
还有一些方面,比如:
rk变为29/204(15%),推免后期变为26/209(12%)(进不了10%都没卵用)
一份精心设计包装的简历(CV是非常非常重要的!)
全部项目源码开源(我想并不会有人看,感动自己)
预推免
学校学院
申请学位
入选
结果
备注
清华大学自动化学院
学硕
×
×
外校强com,用尽全力向thu的最后一搏,遗憾
清华大学软件学院
专硕
×
×
有排名靠前的本院同学卡哥们,注定进不了惹
上海人工智能实验室-GVLab
直博
√
√(最终去向)
致敬传奇耐面王,两个组面了五轮
中国科学院计算技术研究所V ...
『保研经历』保研经历Part1——夏令营
『保研经历』保研经历Part1——夏令营保研经历:特指从24年5月至24年9月这五个月的经历。
Part:本经历主体共分三个部分,分别为夏令营,预推免,总结与经验分享。
秉着不半场开香槟的原则,笔者优先记录下夏令营情况,尘埃落定后再完成预推免部分。文字部分尽量做到客观,实事求是描述事件发生时笔者的所见所想。
我在知乎上看了无数的保研经历,自认为本人经历不具备任何的普适性,权当对本人学习计算机三年来的最高潮做一次分享。
宇宙级免责声明本文中若有泄露高校敏感信息(如考题)行为,或有过失言论,完全非主观行为,请联系我,我会第一时间改正!
本文为完全免费对外开放的经验分享贴,无任何收费观看行为。是经验就必然不可避免地存在着主观色彩的语言文字,如果侵犯到个人利益或集体利益,请联系我,我会第一时间道歉并改正,致歉会公示在本文(永久)!
求仙问卜,不如自己做主,念佛诵经,不如本事在身。人生百态,竞相怒放,一个人的经验不可能完全地适配任何人,如果完全按照本文的经验套用在自己身上,造成的任何后果均不由我(本文作者)承担。
文章会更新,请以最新版为主,如因阅读了旧版本而造成了损失,造成的任何后果均不由我( ...
『信息论』信息论——学习笔记1
前言课程来自上交计算机学院信息论课程。
背景信息论在概率论,计算机科学,人工智能中有大量应用,诸如:决策树中基于最大信息增益进行决策,最常用的交叉熵损失函数,编码器-解码器的概念,Viterbi Algorithm算法。同时信息论与密码学,控制论,通信原理等均密切相连,可以称其为工科里基础中的基础学科,因此系统学习这门课是有必要的。
通信要解决的根本问题是信道噪声问题,即通信的基本问题是在一点上精确地或近似地再现在另一点上选择的消息。
The foudamental problem of communication is that of reproducing at one point either exactly or approximately a message selected at another point.
信息熵熵:描述随机变量的不确定性
H(X)=-\sum{p(x)logp(x)}概率论复习,样本空间$\mathbf{X}$为实验所有可能结果的集合,随机变量$X$是定义在样本空间上的一个函数,在一个样本空间内,允许定义多个随机变量。
其中,$x$为样本空间的所 ...
『深度学习』动手学深度学习——阅读笔记2
『深度学习』动手学深度学习——阅读笔记2❀目录❀
『深度学习』动手学深度学习——阅读笔记1
『深度学习』动手学深度学习——阅读笔记2
七. 现代神经网络5. BN(批量标准化)对于典型的多层感知机或卷积神经网络。当我们训练时,中间层中的变量(例如,多层感知机中的仿射变换输出)可能具有更广的变化范围:不论是沿着从输入到输出的层,跨同一层中的单元,或是随着时间的推移,模型参数的随着训练更新变幻莫测。 批量规范化的发明者非正式地假设,这些变量分布中的这种偏移可能会阻碍网络的收敛。
$ \gamma $ 和 $ \beta $ 都是可学习参数,分别用作对标准化后的值进行缩放(scale)和平移(shift),提高网络的表达能力(不加此参数的话,中间层的输出将被限制在标准正态分布下)。随着网络的训练,网络会学到最合适的 \gamma 和 \beta,最终中间层的输出将服从均值为 \beta,方差为 \gamma^{2} 的正态分布。
对于卷积层而言,每个通道单独做批量规范化,每个通道都有自己的拉伸(scale)和偏移(shift)参数,这两个参数都是标量。
如何手写一个层(广播机制很重要,可 ...
『机器学习系统』OpenMLSYS——阅读笔记2
『机器学习系统』OpenMLSYS——阅读笔记2❀目录❀
『机器学习系统』OpenMLSYS——阅读笔记1
『机器学习系统』OpenMLSYS——阅读笔记2
分布式训练分布式训练系统主要解决单节点的算例和内存不足的问题。
并行方法
数据并行:一个批次内N个数据,使用M个并行设备训练,每个设备需要拷贝一份网络参数,各自计算出梯度后,由集合通信的AllReduce进行梯度聚合
模型并行:分为算子内并行(一个算子分配到不同的设备上),算子间并行(不同算子分配到不同的设备上)
混合并行:数据并行+模型并行
流水线并行
模型并行的劣势:一个设备在计算时另一个设备会空闲
流水线改进:将一个小批次进一步拆分为多个微批次,如下图,提高并行训练效率。核心:微批次大小
过大:每个微批次样本过少,无法充分利用硬件加速
过小:更长时间的流水线气泡
机器学习的集群架构
计算集群:机器学习模型分布训练的整套设备。多台服务器放置在一个机柜内,由架顶交换机管理,多台架顶交换机间可增加骨干交换机。即通常由树状的拓扑结构构建,叶子节点是服务器,上层是交换机。
核心设计需求:跨机柜通信会产生网络带宽超额认购,应将 ...
『机器学习系统』OpenMLSYS——阅读笔记1
『机器学习系统』OpenMLSYS——阅读笔记1❀目录❀
『机器学习系统』OpenMLSYS——阅读笔记1
『机器学习系统』OpenMLSYS——阅读笔记2
前言OpenMLSYS电子书链接。本书阅读于24年暑假,每天上午一章节,随阅读随记录笔记,记录的不详尽或复制粘贴原文之处敬请谅解。By the way,当时正处于没有一个offer的痛苦阶段,已经考虑转行做深度学习系统,进而阅读了这本书。
平心而论,该书电子版用的和《动手学深度学习》一样的模板,但内容质量差距较大(勿喷)。不过MLSYS近年来才起步并仍在发展,作者愿意总结知识并著作已经不可多得,这仍然是我最推荐入门机器学习系统的好书~
AI编译器与前端技术计算机求导的方法
手动微分:人工计算表达式
数值微分:无穷小逼近,会产生截断误差;浮点数运算,会产生舍入误差
符号微分:不复用产生的变换结果,存在表达式膨胀问题
自动微分(机器学习框架使用):将计算机程序中的运算操作分解为一个有限的基本操作集合,且集合中基本操作的求导规则均为已知。在完成每一个基本操作的求导后,使用链式法则将结果组合得到整体程序的求导结果。我们将着重介绍自 ...
『深度学习』动手学深度学习——阅读笔记1
『深度学习』动手学深度学习——阅读笔记1❀目录❀
『深度学习』动手学深度学习——阅读笔记1
『深度学习』动手学深度学习——阅读笔记2
零. 前言动手学AI电子书链接。本书阅读于24年寒假,每天上午一章节,随阅读随记录笔记,记录的不详尽或复制粘贴原文之处敬请谅解。By the way,这是笔者推荐深度学习入门最好的指导书。
一.引言1. 四大基石
数据
模型
目标函数
优化算法 —— 基于梯度下降
2. 机器学习分类
有监督学习(分类,回归,序列学习—时间序列预测),下流任务丰富多样
无监督学习
强化学习(环境—动作—奖励 三元组)
二. 数学基础1. 线性代数
数据形式
标量
向量
矩阵
张量
运算
矩阵元素级别运算
向量间点积
矩阵 * 向量
矩阵 * 矩阵
范数:衡量向量的“大小”
L1
L2(欧氏距离)
余弦距离
2. 微分构建计算图来保存每个标量在反向传播后的梯度,梯度的计算运用偏导和链式法则。
梯度:f(x)中对每一个自变量x分值的微分,结果为一个向量
链式法则:见淑芬
分离计算图:y.detach() 将y从计算图中分 ...
『智谱清言』深度学习环境常见问题
『智谱清言』深度学习环境常见问题持续更新
问题一环境:Ubuntu 22.0,8*A100,Nvidia-smi CUDA:12.2,安装的CUDA版本为10.1
之前一直能正常使用CUDA,今天突然无法正常使用GPU,报错如下:
1234import torch'''/home/yangbowen/anaconda3/envs/yangbowen/lib/python3.10/site-packages/torch/cuda/__init__.py:128: UserWarning: CUDA initialization: Unexpected error from cudaGetDeviceCount(). Did you run some cuda functions before calling NumCudaDevices() that might have already set an error? Error 802: system not yet initialized (Triggered internally at ../c10/cu ...
『计算机网络』计算机网络实验——路由协议分析
『计算机网络』计算机网络实验——路由协议分析针对套件二的计网实验最难点在于OSPF和BGP协议的理解,简要记录如下。
自治系统内部:RIP, OSPF
外部:BGP
OSPFPeer关系
邻居状态机:
建立邻接关系的过程(注意状态转移都是双方都有的):
Hello报文确定邻居。状态: down - init - 2-way
比较routerid,确定主从关系 状态:Exstart
开始交换LSA摘要信息DBD,主方每次seq+1,从方每次传上一个从主方获得seq,以此来确保双方信息交换的正确性与顺序性。状态:Exchange
交换完毕后,检查新信息是否与自己已有信息冲突,若不冲突则直接Full,冲突则Loading,发送LSR报文请求,对方发送LSU回复,收到回复后发送LSAck收到。双方都无冲突后,变为Full状态,如此建立起邻接关系。
链路状态LSA
第一类LSA和第二类LSA适用于同一Area下:
四种不同类型的网络:末端网络,PPP,点到多点网络(使用第一类LSA),全连接网络(使用第二类LSA)
路由器和交换机连接:Net网段
路由器和路由器连接:St ...