Hive编写UDF函数 Hive的内置函数无法满足业务需求时,就可以考虑使用用户自定义函数(UDF:user-defined function) 根据用户自定义的函数类别可以分为以下三种: 1.UDF(User-Defined-Function) 一进一出 UDF操作作用于单个数据行,并且产生一个数据行作为输出。大多数函数都属于这一类(比如数学函数和字符串函数)。 2.UDAF(User-Defined Aggregat 2023-03-06 大数据 #Hive
基于Doris的数据血缘设计方案和实现 Here's something encrypted, password is required to continue reading. 2023-03-03 大数据 #Doris
调度平台dolphinscheduler dolphinscheduler的内部可分为四个模块: MasterServer、WorkerServer、AlertServer、ApiServer 1.架构说明MasterServerMasterServer采用分布式无中心设计理念,MasterServer主要负责 DAG 任务切分、任务提交监控,并同时监听其它MasterServer和WorkerServer的健康状态。 MasterSer 2023-03-01 大数据 #DolphinScheduler
Flink MULTI JDBC CONNECTOR 提供分库分表的jdbc链接方法,目前只提供批模式。 参数 参数名称 是否必填 说明 connector 是 填写multi-jdbc url 是 jdbc的链接串,用分号分割。jdbc:mysql://${connection1};jdbc:mysql://${connection2} table-name 是 可用正则匹配 schem 2023-01-16 Flink #FlinkCDC
hexo d部署网站时出现错误Error: Spawn failed(生成失败) 关于博客使用过程中,进行远端部署时使用hexo d指令后可能会遇到的错误有很多,其中最常见的就是类似于下面Error: Spawn failed的错误。 12345678910111213ssh: connect to host github.com port 22: Connection refusedfatal: Could not read from remote repository.Pl 2023-01-16 博客 #hexo
Mac系统安装vue教程 准备工作:安装node,npmVue依托nodejs,在安装Vue之前,先保证有装node,npm。通过如下命令检查是否有安装 node -v npm -v 若没有安装,可选择手动安装or自动安装 手动安装需要自己去官网下载安装包,下载之后,直接点击运行,一路默认就行,直到安装完成。 node下载地址:https://nodejs.org/en/download/ (选择mac os) 自动安装 2022-12-19 #Vue
chrome浏览器安装elasticsearch的head可视化插件 head插件简介elasticsearch-head被称为是弹性搜索集群的web前端,head插件主要是用来和elastic Cluster交互的Web前端 chrome浏览器下的head插件安装用chrome浏览器集成head插件,操作比较简单, 可再不用单独运行服务, 简化了head插件的安装. 安装步骤1.下载es-head.crx文件插件下载地址: https://github.com/m 2022-12-18 #elasticsearch
MyBatis与Mysql字段映射的三种方式 Java中属性命名一般使用驼峰命名法,mysql中的字段一般使用“_”来连接两个单词。这样就需要中间有一层转换,使两边能够对应起来。下面是三种不同的实现方式,根据情况做出合理的选择。 场景数据库中表结构: 1234567CREATE TABLE `t_user` ( `id` int(11) unsigned NOT NULL AUTO_INCREMENT, `user_name` varch 2022-12-18 Java #Java
FlinkCDC-2.0-原理与实践 Flinkcdc原理一、CDC 概述CDC 的全称是 Change Data Capture ,在广义的概念上,只要是能捕获数据变更的技术,我们都可以称之为 CDC 。目前通常描述的 CDC 技术主要面向数据库的变更,是一种用于捕获数据库中数据变更的技术。CDC 技术的应用场景非常广泛: 数据同步:用于备份,容灾; 数据分发:一个数据源分发给多个下游系统; 数据采集:面向数据仓库 / 2022-12-06 Flink #FlinkCDC
数据治理实践 数据质量治理 数据质量是数据治理的核心,也是基础工作。数据质量通常会从及时性、真实性、唯一性、完整性、有效性、一致性等六个维度来衡量。 对于数据质量的监控,主要包括三个环节: 第一,结合数据质量衡量的六个维度以及日常工作中发现的数据质量问题,配置相关规则。 第二,在数据加工的各个环节设置检查点,比如从ODS到DW,从DW到DM等环节。如在ODS检查点设置中,可能会包括数据源抽取记录的检查;在基础层 2022-12-05 大数据 #数据治理