Flink作业读取mysql-binlog写入kafka报错

问题描述flinkcdc读取mysql-binlog日志写到kafka时出现不能获取kafka metadata的问题遇到获取不到获取不到metadata的情况，检查kafka集群是否有节点挂了。我们kafka集群为3节点，排查发现其中一个节点由于磁盘写满挂了。 var isMobile = navigator.userAgent.match(/(p

2022-08-31

Flink

#Flink

Flink使用之SQL Client

前言Flink提供了SQL Client端，有了它我们可以像Hive的beeline一样直接在控制台编写SQL并提交作业。这里与FlinkSQL不同的是，虽然FlinkSQL实现了可以在Flink程序中写SQL，但还是需要写一些java和scala代码，Flink提供了SQL Client可以帮助不会写java和scala的程序员快速上手。如何使用Flink SQL client支持运行在sta

2022-08-20

Flink

#Flink

ETL算法

ETL算法 1.全删全插应用场景适合源表是全量数据表，该数据表业务逻辑只需保存当前最新全量数据，不需跟踪过往历史信息。主要应用在维表、参数表算法实现逻辑 1.清空目标表； 2.源表全量插入； ETL代码原型 123456789-- 1. 清理目标表TRUNCATE TABLE <目标表>; -- 2. 全量插入INSERT INTO <目标表> (字段*

2022-08-16

数据仓库

#ETL

Doris索引

BloomFilter索引BloomFilter索引原理布隆过滤器实际上是由一个超长的二进制位数组和一系列的哈希函数组成。二进制位数组初始全部为0，当给定一个待查询的元素时，这个元素会被一系列哈希函数计算映射出一系列的值，所有的值在位数组的偏移量处置为1。下图所示出一个 m=18, k=3 （m是该Bit数组的大小，k是Hash函数的个数）的Bloom Filter示例。集合

2022-08-15

Doris

#Doris

deep_learning_7.数值稳定性和模型初始化

到目前为止，我们实现的每个模型都是根据某个预先指定的分布来初始化模型的参数。这样比较容易忽略模型初始值对训练的影响。选择哪个函数以及如何初始化参数可以决定优化算法收敛的速度有多快。糟糕选择可能会导致我们在训练时遇到梯度爆炸或梯度消失。梯度消失和梯度爆炸当初始值选取的点不一样时，就会造成梯度消失或者是梯度爆炸的情况所谓梯度消失是指，梯度的值在很小的范围内变化，导数接近于平滑的直线。梯度爆炸

2022-08-14

Deep Learning

#Deep Learning

deep_learning_6.过拟合-暂退法(Dropout)

暂退法（Dropout）模型的泛化性越强，要求模型对其输入的微小变化越不敏感，也就是对噪声的适应能力越强。那么关键是如何加入这种噪声，一种想法是无偏差（unbiased）的方式注入噪声。这样在固定住其他层时，每一层的期望值等于没有噪声时的值。我们把这种方法叫做暂退法。暂退法其实就是在训练过程中丢弃（drop out）一些神经元。在整个训练过程的每一次迭代中，标准暂退法包括在计算下一层之前将当

2022-08-14

Deep Learning

#Deep Learning

Mac电脑重新启动后hexo d需要输入密码

问题描述在一次我Mac电脑重启后，hexo部署文章时，需要手动输入密码在确认ssh密钥已经配置后，开始网上搜索Mac重启后密钥失效问题。 ssh密钥确认/Users/tingyu/.ssh 目录下存在id_rsa和id_rsa.pub两个文件 ![](https://raw.githubusercontent.com/YUTING0907/PicGo/main/im

2022-08-11

博客

#hexo

Doris性能优化实战技巧

为什么选择Doris1.开源 Doris 和 Clickhouse 之间的优势和劣势是什么？ Doris 是 MPP 架构的数据库，这点是和 Clickhouse 从架构上有本质的不同。Doris 在多表 Join 和分布式管理上更有优势，Clickhouse 单机性能突出。不过我们的向量化引擎也马上就能和大家见面了，性能上可以期待一下。 2.Doris 入门门槛高吗？超过多大的数据量比较合适使

2022-08-10

Doris

#Doris

deep_learning_5.过拟合-权重衰减法

出现过拟合的现象，是数据集的大小不能够支撑现有的模型。除了收集更多的数据外（大多数情况耗时短期内不可能做到），可以引入正则化来处理过拟合的问题。正则化正则化一般分为两种，一种是L1范数，一种是L2范数。L2正则化线性模型构成经典的岭回归（ridge regression）算法， L1正则化线性回归是统计学中类似的基本模型，通常被称为套索回归（lasso regression）。为什么我们首

2022-08-07

Deep Learning

#Deep Learning

deep_learning_4.模型选择&欠拟合和过拟合

模型选择在机器学习中，我们通常在评估几个候选模型后选择最终的模型。这个过程叫做模型选择。有时，需要进行比较的模型在本质上是完全不同的（比如，决策树与线性模型）。又有时，我们需要比较不同的超参数设置下的同一类模型。例如，训练多层感知机模型时，我们可能希望比较具有不同数量的隐藏层、不同数量的隐藏单元以及不同的激活函数组合的模型。为了确定候选模型中的最佳模型，我们通常会使用验证集。验证集

2022-08-06

Deep Learning

#Deep Learning