Hive编写UDF函数

Hive的内置函数无法满足业务需求时，就可以考虑使用用户自定义函数（UDF：user-defined function）根据用户自定义的函数类别可以分为以下三种： 1.UDF(User-Defined-Function) 一进一出 UDF操作作用于单个数据行，并且产生一个数据行作为输出。大多数函数都属于这一类（比如数学函数和字符串函数）。 2.UDAF（User-Defined Aggregat

2023-03-06

大数据

#Hive

基于Doris的数据血缘设计方案和实现

Here's something encrypted, password is required to continue reading.

2023-03-03

大数据

#Doris

调度平台dolphinscheduler

dolphinscheduler的内部可分为四个模块： MasterServer、WorkerServer、AlertServer、ApiServer 1.架构说明MasterServerMasterServer采用分布式无中心设计理念，MasterServer主要负责 DAG 任务切分、任务提交监控，并同时监听其它MasterServer和WorkerServer的健康状态。 MasterSer

2023-03-01

大数据

#DolphinScheduler

Flink MULTI JDBC CONNECTOR

提供分库分表的jdbc链接方法，目前只提供批模式。参数参数名称是否必填说明 connector 是填写multi-jdbc url 是 jdbc的链接串，用分号分割。jdbc:mysql://${connection1};jdbc:mysql://${connection2} table-name 是可用正则匹配 schem

2023-01-16

Flink

#FlinkCDC

hexo d部署网站时出现错误Error: Spawn failed(生成失败)

关于博客使用过程中，进行远端部署时使用hexo d指令后可能会遇到的错误有很多，其中最常见的就是类似于下面Error: Spawn failed的错误。 12345678910111213ssh: connect to host github.com port 22: Connection refusedfatal: Could not read from remote repository.Pl

2023-01-16

博客

#hexo

Mac系统安装vue教程

准备工作：安装node，npmVue依托nodejs，在安装Vue之前，先保证有装node,npm。通过如下命令检查是否有安装 node -v npm -v 若没有安装，可选择手动安装or自动安装手动安装需要自己去官网下载安装包，下载之后，直接点击运行，一路默认就行，直到安装完成。 node下载地址：https://nodejs.org/en/download/ （选择mac os）自动安装

2022-12-19

#Vue

chrome浏览器安装elasticsearch的head可视化插件

head插件简介elasticsearch-head被称为是弹性搜索集群的web前端，head插件主要是用来和elastic Cluster交互的Web前端 chrome浏览器下的head插件安装用chrome浏览器集成head插件,操作比较简单, 可再不用单独运行服务, 简化了head插件的安装. 安装步骤1.下载es-head.crx文件插件下载地址: https://github.com/m

2022-12-18

#elasticsearch

MyBatis与Mysql字段映射的三种方式

Java中属性命名一般使用驼峰命名法，mysql中的字段一般使用“_”来连接两个单词。这样就需要中间有一层转换，使两边能够对应起来。下面是三种不同的实现方式，根据情况做出合理的选择。场景数据库中表结构： 1234567CREATE TABLE `t_user` ( `id` int(11) unsigned NOT NULL AUTO_INCREMENT, `user_name` varch

2022-12-18

Java

#Java

FlinkCDC-2.0-原理与实践

Flinkcdc原理一、CDC 概述CDC 的全称是 Change Data Capture ，在广义的概念上，只要是能捕获数据变更的技术，我们都可以称之为 CDC 。目前通常描述的 CDC 技术主要面向数据库的变更，是一种用于捕获数据库中数据变更的技术。CDC 技术的应用场景非常广泛：数据同步：用于备份，容灾；数据分发：一个数据源分发给多个下游系统；数据采集：面向数据仓库 /

2022-12-06

Flink

#FlinkCDC

数据治理实践

数据质量治理数据质量是数据治理的核心，也是基础工作。数据质量通常会从及时性、真实性、唯一性、完整性、有效性、一致性等六个维度来衡量。对于数据质量的监控，主要包括三个环节：第一，结合数据质量衡量的六个维度以及日常工作中发现的数据质量问题，配置相关规则。第二，在数据加工的各个环节设置检查点，比如从ODS到DW，从DW到DM等环节。如在ODS检查点设置中，可能会包括数据源抽取记录的检查；在基础层

2022-12-05

大数据

#数据治理