『深度学习』动手学深度学习——阅读笔记2
『深度学习』动手学深度学习——阅读笔记2❀目录❀
『深度学习』动手学深度学习——阅读笔记1
『深度学习』动手学深度学习——阅读笔记2
七. 现代神经网络5. BN(批量标准化)对于典型的多层感知机或卷积神经网络。当我们训练时,中间层中的变量(例如,多层感知机中的仿射变换输出)可能具有更广的变化范围:不论是沿着从输入到输出的层,跨同一层中的单元,或是随着时间的推移,模型参数的随着训练更新变幻莫测。 批量规范化的发明者非正式地假设,这些变量分布中的这种偏移可能会阻碍网络的收敛。
$ \gamma $ 和 $ \beta $ 都是可学习参数,分别用作对标准化后的值进行缩放(scale)和平移(shift),提高网络的表达能力(不加此参数的话,中间层的输出将被限制在标准正态分布下)。随着网络的训练,网络会学到最合适的 \gamma 和 \beta,最终中间层的输出将服从均值为 \beta,方差为 \gamma^{2} 的正态分布。
对于卷积层而言,每个通道单独做批量规范化,每个通道都有自己的拉伸(scale)和偏移(shift)参数,这两个参数都是标量。
如何手写一个层(广播机制很重要,可 ...
『信息论』信息论——学习笔记1
前言课程来自上交计算机学院信息论课程。
背景信息论在概率论,计算机科学,人工智能中有大量应用,诸如:决策树中基于最大信息增益进行决策,最常用的交叉熵损失函数,编码器-解码器的概念,Viterbi Algorithm算法。同时信息论与密码学,控制论,通信原理等均密切相连,可以称其为工科里基础中的基础学科,因此系统学习这门课是有必要的。
通信要解决的根本问题是信道噪声问题,即通信的基本问题是在一点上精确地或近似地再现在另一点上选择的消息。
The foudamental problem of communication is that of reproducing at one point either exactly or approximately a message selected at another point.
信息熵熵:描述随机变量的不确定性
H(X)=-\sum{p(x)logp(x)}概率论复习,样本空间$\mathbf{X}$为实验所有可能结果的集合,随机变量$X$是定义在样本空间上的一个函数,在一个样本空间内,允许定义多个随机变量。
其中,$x$为样本空间的所 ...
『机器学习系统』OpenMLSYS——阅读笔记2
『机器学习系统』OpenMLSYS——阅读笔记2❀目录❀
『机器学习系统』OpenMLSYS——阅读笔记1
『机器学习系统』OpenMLSYS——阅读笔记2
分布式训练分布式训练系统主要解决单节点的算例和内存不足的问题。
并行方法
数据并行:一个批次内N个数据,使用M个并行设备训练,每个设备需要拷贝一份网络参数,各自计算出梯度后,由集合通信的AllReduce进行梯度聚合
模型并行:分为算子内并行(一个算子分配到不同的设备上),算子间并行(不同算子分配到不同的设备上)
混合并行:数据并行+模型并行
流水线并行
模型并行的劣势:一个设备在计算时另一个设备会空闲
流水线改进:将一个小批次进一步拆分为多个微批次,如下图,提高并行训练效率。核心:微批次大小
过大:每个微批次样本过少,无法充分利用硬件加速
过小:更长时间的流水线气泡
机器学习的集群架构
计算集群:机器学习模型分布训练的整套设备。多台服务器放置在一个机柜内,由架顶交换机管理,多台架顶交换机间可增加骨干交换机。即通常由树状的拓扑结构构建,叶子节点是服务器,上层是交换机。
核心设计需求:跨机柜通信会产生网络带宽超额认购,应将 ...
『机器学习系统』OpenMLSYS——阅读笔记1
『机器学习系统』OpenMLSYS——阅读笔记1❀目录❀
『机器学习系统』OpenMLSYS——阅读笔记1
『机器学习系统』OpenMLSYS——阅读笔记2
前言OpenMLSYS电子书链接。本书阅读于24年暑假,每天上午一章节,随阅读随记录笔记,记录的不详尽或复制粘贴原文之处敬请谅解。By the way,当时正处于没有一个offer的痛苦阶段,已经考虑转行做深度学习系统,进而阅读了这本书。
平心而论,该书电子版用的和《动手学深度学习》一样的模板,但内容质量差距较大(勿喷)。不过MLSYS近年来才起步并仍在发展,作者愿意总结知识并著作已经不可多得,这仍然是我最推荐入门机器学习系统的好书~
AI编译器与前端技术计算机求导的方法
手动微分:人工计算表达式
数值微分:无穷小逼近,会产生截断误差;浮点数运算,会产生舍入误差
符号微分:不复用产生的变换结果,存在表达式膨胀问题
自动微分(机器学习框架使用):将计算机程序中的运算操作分解为一个有限的基本操作集合,且集合中基本操作的求导规则均为已知。在完成每一个基本操作的求导后,使用链式法则将结果组合得到整体程序的求导结果。我们将着重介绍自 ...
『深度学习』动手学深度学习——阅读笔记1
『深度学习』动手学深度学习——阅读笔记1❀目录❀
『深度学习』动手学深度学习——阅读笔记1
『深度学习』动手学深度学习——阅读笔记2
零. 前言动手学AI电子书链接。本书阅读于24年寒假,每天上午一章节,随阅读随记录笔记,记录的不详尽或复制粘贴原文之处敬请谅解。By the way,这是笔者推荐深度学习入门最好的指导书。
一.引言1. 四大基石
数据
模型
目标函数
优化算法 —— 基于梯度下降
2. 机器学习分类
有监督学习(分类,回归,序列学习—时间序列预测),下流任务丰富多样
无监督学习
强化学习(环境—动作—奖励 三元组)
二. 数学基础1. 线性代数
数据形式
标量
向量
矩阵
张量
运算
矩阵元素级别运算
向量间点积
矩阵 * 向量
矩阵 * 矩阵
范数:衡量向量的“大小”
L1
L2(欧氏距离)
余弦距离
2. 微分构建计算图来保存每个标量在反向传播后的梯度,梯度的计算运用偏导和链式法则。
梯度:f(x)中对每一个自变量x分值的微分,结果为一个向量
链式法则:见淑芬
分离计算图:y.detach() 将y从计算图中分 ...
『智谱清言』深度学习环境常见问题
『智谱清言』深度学习环境常见问题持续更新
问题一环境:Ubuntu 22.0,8*A100,Nvidia-smi CUDA:12.2,安装的CUDA版本为10.1
之前一直能正常使用CUDA,今天突然无法正常使用GPU,报错如下:
1234import torch'''/home/yangbowen/anaconda3/envs/yangbowen/lib/python3.10/site-packages/torch/cuda/__init__.py:128: UserWarning: CUDA initialization: Unexpected error from cudaGetDeviceCount(). Did you run some cuda functions before calling NumCudaDevices() that might have already set an error? Error 802: system not yet initialized (Triggered internally at ../c10/cu ...
『计算机网络』计算机网络实验——路由协议分析
『计算机网络』计算机网络实验——路由协议分析针对套件二的计网实验最难点在于OSPF和BGP协议的理解,简要记录如下。
自治系统内部:RIP, OSPF
外部:BGP
OSPFPeer关系
邻居状态机:
建立邻接关系的过程(注意状态转移都是双方都有的):
Hello报文确定邻居。状态: down - init - 2-way
比较routerid,确定主从关系 状态:Exstart
开始交换LSA摘要信息DBD,主方每次seq+1,从方每次传上一个从主方获得seq,以此来确保双方信息交换的正确性与顺序性。状态:Exchange
交换完毕后,检查新信息是否与自己已有信息冲突,若不冲突则直接Full,冲突则Loading,发送LSR报文请求,对方发送LSU回复,收到回复后发送LSAck收到。双方都无冲突后,变为Full状态,如此建立起邻接关系。
链路状态LSA
第一类LSA和第二类LSA适用于同一Area下:
四种不同类型的网络:末端网络,PPP,点到多点网络(使用第一类LSA),全连接网络(使用第二类LSA)
路由器和交换机连接:Net网段
路由器和路由器连接:St ...
『计算机网络』计算机网络理论——期末复习
『计算机网络』计算机网络理论复习——期末复习概述
时延:
我们通常下载看到的xx Mb/s都是指发送速率,传播速率我们普遍认为光速。
体系结构:
实体:任何可发送或接收信息的硬件或软件进程
协议:控制两个对等实体进行通信的规则的集合
物理层 —— 比特流(Bit)
四个特性:机械特性,电气特性,功能特性,过程特性
码元:数字信号,代表不同离散数值的基本波形
码元速率(波特率):单位时间内通过信道的码元个数。
数据速率(比特率):码元可以携带多比特,这取决于码元离散取值的数量,但信号电平级数较多可能出现串扰。
复用技术
频分复用(FDM)与时分复用(TDM)
光的波分复用(WDM)
码分复用(CDM):码分多址,用于无线通信,一个比特时间划分m个间隔,每个站分配一个唯一的m bit序列,且互相正交。即每个通信使用不同的m比特序列表示0和1,例如 00011011表示0,11100100表示1
传输介质
导引型:双绞线,同轴电缆,光纤
非导引型:无线电波传播
奈奎斯特公式:$带宽 = 最大频率 - 最小频率$
香农公式(考虑信噪比): ...
『数据库系统』与爱同航——系统实现文档
『数据库系统』与爱同航——系统实现文档系统实现文档一、实现环境1.1 客户端环境依赖12345678910111213141516171819202122232425262728{ "name": "vue3", "version": "0.0.0", "private": true, "scripts": { "dev": "vite", "build": "vite build", "preview": "vite preview", "lint": "eslint . --ext .vue,.js,.jsx,.cjs,.mjs --fix --ignore-path .gitignore" }, "dependencies&quo ...
『数据库系统』与爱同航——系统设计文档
『数据库系统』与爱同航——系统设计文档一. 需求分析1.1 需求描述1.1.1 背景调研大学生进入大学以后,随着心理和生理的逐渐成熟,加之大学学习,生活压力减小,课余时间相对增多,大学生们会开始春心萌动,对异性产生爱慕之情,据统计相当大部分的大学生在大学最想得到的便是一场甜甜的恋爱,却由于各种阻碍的屡屡碰壁,使大家纷纷变成了“看破红尘,专心学术”的卷卷怪,这些阻碍包括但不限于,兴趣爱好不合,性格不合,聊不到一起去,人品不行,被渣男/渣女伤害,甚至有人“出师未捷身先死”,永远嘴上说着想找一个志同道合的恋人,却又永远由于各种原因跨不出最关键的第一步。
无论如何,整体大学生的恋爱情况稳中向好,无需我们过度担心。回归到日夜陪伴我们的母校,北京航天航空大学,一所纯正的理工科大学,一间纯正的人才加工厂。一进入到你航就仿佛徜徉在了知识的海洋,在如此情况下,大学生的恋爱问题日益突出,据开发组人员就六系计算机学院众人的恋爱经历与态度统计,有68%的人从未谈过恋爱,有23%的人正在谈恋爱,其余人并不愿意透露更多信息,猜测是受到过情伤;而进一步对68%并未谈过恋爱的同学进行调查,87%的同学对爱情充满着向往 ...