ETL算法 ETL算法 1.全删全插 应用场景 适合源表是全量数据表,该数据表业务逻辑只需保存当前最新全量数据,不需跟踪过往历史信息。主要应用在维表、参数表 算法实现逻辑 1.清空目标表; 2.源表全量插入; ETL代码原型 123456789-- 1. 清理目标表TRUNCATE TABLE <目标表>; -- 2. 全量插入INSERT INTO <目标表> (字段* 2022-08-16 数据仓库 #ETL
Doris索引 BloomFilter索引BloomFilter索引原理布隆过滤器实际上是由一个超长的二进制位数组和一系列的哈希函数组成。二进制位数组初始全部为0,当给定一个待查询的元素时,这个元素会被一系列哈希函数计算映射出一系列的值,所有的值在位数组的偏移量处置为1。 下图所示出一个 m=18, k=3 (m是该Bit数组的大小,k是Hash函数的个数)的Bloom Filter示例。集合 2022-08-15 Doris #Doris
deep_learning_7.数值稳定性和模型初始化 到目前为止,我们实现的每个模型都是根据某个预先指定的分布来初始化模型的参数。这样比较容易忽略模型初始值对训练的影响。 选择哪个函数以及如何初始化参数可以决定优化算法收敛的速度有多快。 糟糕选择可能会导致我们在训练时遇到梯度爆炸或梯度消失。 梯度消失和梯度爆炸当初始值选取的点不一样时,就会造成梯度消失或者是梯度爆炸的情况 所谓梯度消失是指,梯度的值在很小的范围内变化,导数接近于平滑的直线。 梯度爆炸 2022-08-14 Deep Learning #Deep Learning
deep_learning_6.过拟合-暂退法(Dropout) 暂退法(Dropout)模型的泛化性越强,要求模型对其输入的微小变化越不敏感,也就是对噪声的适应能力越强。 那么关键是如何加入这种噪声,一种想法是无偏差(unbiased)的方式注入噪声。这样在固定住其他层时,每一层的期望值等于没有噪声时的值。我们把这种方法叫做暂退法。 暂退法其实就是在训练过程中丢弃(drop out)一些神经元。 在整个训练过程的每一次迭代中,标准暂退法包括在计算下一层之前将当 2022-08-14 Deep Learning #Deep Learning
Mac电脑重新启动后hexo d需要输入密码 问题描述在一次我Mac电脑重启后,hexo部署文章时,需要手动输入密码 在确认ssh密钥已经配置后,开始网上搜索Mac重启后密钥失效问题。 ssh密钥确认/Users/tingyu/.ssh 目录下存在id_rsa和id_rsa.pub两个文件 ,可以引入正则化来处理过拟合的问题。 正则化正则化一般分为两种,一种是L1范数,一种是L2范数。L2正则化线性模型构成经典的岭回归(ridge regression)算法, L1正则化线性回归是统计学中类似的基本模型, 通常被称为套索回归(lasso regression)。 为什么我们首 2022-08-07 Deep Learning #Deep Learning
deep_learning_4.模型选择&欠拟合和过拟合 模型选择在机器学习中,我们通常在评估几个候选模型后选择最终的模型。 这个过程叫做模型选择。 有时,需要进行比较的模型在本质上是完全不同的(比如,决策树与线性模型)。 又有时,我们需要比较不同的超参数设置下的同一类模型。 例如,训练多层感知机模型时,我们可能希望比较具有 不同数量的隐藏层、不同数量的隐藏单元以及不同的激活函数组合的模型。 为了确定候选模型中的最佳模型,我们通常会使用验证集。 验证集 2022-08-06 Deep Learning #Deep Learning
deep_learning_3.多层感知机的从零实现 单层感知机模型,给定输入x,权重w,和偏移b,感知机输出: o = O(<w,x> + b ) O(i) = {1, if x>0; -1 otherwise} 感知机模型为二分类:-1或1 vs 回归 输出实数 vs Softmax回归 输出概率 单层感知机不能划分XOR数据(亦或),对于这一点,我们可以使用多层感知机模型。我们可以通过在网络中加入一 2022-07-31 Deep Learning #Deep Learning
deep_learning-2.softmax回归的从零实现 softmax回归回归可以用于预测多少的问题。 比如预测房屋被售出价格,或者棒球队可能获得的胜场数,又或者患者住院的天数。 事实上,我们也对分类问题感兴趣:不是问“多少”,而是问“哪一个”: 某个电子邮件是否属于垃圾邮件文件夹? 某个用户可能注册或不注册订阅服务? 某个图像描绘的是驴、狗、猫、还是鸡? 某人接下来最有可能看哪部电影? 通常,机器学习实践者用分类这个词来描述两个有微妙差别的问题: 2022-07-30 Deep Learning #Deep Learning