DataX源码解析-04插件加载原理 前言前面几篇的DataX系列源码解析,分别讲了整体架构、调度流程、数据传输,这篇将详细介绍DataX的各类插件是如何进行家加载的。 JobContainer.start()在JobContainer中,进入start()方法的this.init()方法 12345678910111213141516171819202122/** * reader和writer的初始化 */private void 2025-09-02 #大数据
DataX源码解析-03数据传输 前言在上篇文章中我们已经对于DataX的调度流程进行了细致的剖析,这篇文章我们将更深层次的研究DataX在数据传输与交换方面的细节。 上篇提到,DataX核心运行子单位是TaskExecutor,一个TaskExecutor中会拥有两个线程,分别是WriterThread和ReaderThread,这两个线程承担着整个数据传输的重任,所以今天整篇文章的重点将围绕这两个线程展开。 线程的创建来到Ta 2025-09-01 #大数据
DataX源码解析-02调度流程 前言上篇讲了DataX的整体架构,已经对DataX的架构和运行流程有了一个比较细致的了解。这篇主要集中于DataX在调度方面的深层细节。回顾DataX的执行路径为: 启动类Engine.java-> entry() |根据mode初始化 AbstarctContainer(JobContainer/TaskGroupContainer) 启动容器start() JobCont 2025-09-01 #大数据
DataX源码解析-01整体架构 前言近期在工作中需要用到DataX去作为公司内部离线数据同步引擎,好奇心驱使就花了一些时间研究了DataX的整体架构和设计思想,从中吸收了很多优秀的设计思路,作为一款纯Java实现的数据同步工具,相对于市面上已存在的基于大数据框架为背景的数据同步工具有着易部署、易扩展的优点,但不足的地方是alibaba只是开源了DataX单机模式代码,并未开源分布式部分代码,目前在Github中的只是阉割版是Da 2025-09-01 #大数据
基于OCR的身份证信息提取 背景 用户上传的身份证照片各式各样,图像质量参差不齐,部分还存在水印,并且混杂身份证的正反面,这就导致在OCR识别过程中难度比较大。 针对于此,进行图像预处理的各种尝试,大方向是将图像中的身份证框出来进行裁剪,让输入给OCR进行识别的图像尽可能质量好。 尝试过如下方法: 1.利用opencv进行框选 该方案由于图像大小、分辨率、背景区别差异大,效果不好 2.利用rembg算法进行抠图 由于rem 2025-05-22 #CV
华东师范大学专业硕士毕业论文latex修改记录 硕士毕业论文latex修改记录overleaf官网下载的ECNU学硕/博论文模版运用到专业硕士上还是有点区别,需要修改模版的如下地方。 自用。不对内容正确性负责。 封面1.preface/inner-cover.tex 12345% ~ Line 4 xxxx届硕士专业学位研究生学位论文% 由\noindent{{\zihao{4} { 2025-02-19 #博客
Hexo+GitHub Pages搭建的个人博客加入到Bing搜索引擎 将中文网页名称转换为固定字符串hexo默认生成的页面是你的title名,即title是中文那么网站访问的路径也是中文,这样是很不利于搜索引擎收录的,让我们使用插件来解决这个问题。 1.安装缩短链接插件 npm install hexo-abbrlink --save 2.hexo的_config.yml 添加如下配置: 12345678permalink: posts/:abbrlink.html 2025-02-09 #博客
大模型必知必会的问题及答案 以问题为导向来检验自己学习的效果。以下是一些大模型必知必会的问题,快来检查一下掌握程度吧~ 数据预处理 1.什么是 BPE?它如何工作? Byte Pair Encoding (BPE),又称 digram coding 双字母组合编码,是一种数据压缩 算法,用来在固定大小的词表中实现可变⻓度的子词。该算法简单有效,因而目前它是最流行的方法。 2025-01-16 NLP #NLP
Fluid-7-添加星系loading动画 Hexo博客主题为Fluid 1.在themes\fluid\layout\_partials\路径下创建loading.ejs,内容参考: 123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869 2025-01-15 博客 #hexo
Fluid-6-导航栏标题添加霓虹灯特效 注意 主题为Fluid!!!! 修改themes\fluid\source\css\_pages\_base\_widget\header.styl,在里面追加样式(注意缩进): 1234567891011.navbar-title outline none --c lightseagreen text-shadow 0 0 10px var(--c),0 0 20px var(--c) 2025-01-15 博客 #hexo