LeetCode hot100

数据结构与算法的脑图基础数据结构（必掌握）数组 & 字符串核心特性：连续内存、随机访问O(1)、增删O(n) 刷题高频点：双指针、滑动窗口、前缀和、差分、字符串匹配(KMP) 经典题型：两数之和、最长回文子串、滑动窗口最大值链表核心特性：非连续内存、顺序访问O(n)、增删O(1)（已知节点）刷题高频点：虚拟头节点、快慢指针、反转链表、环形链表经典题型：反转链表、合并两个

2026-01-29

#数据结构

必用的6种JAVA设计模式

1.单例模式1.1 业务场景单例模式，保证一个类仅有一个实例，并提供一个访问它的全局访问点。例如，Windows里面的Task Manager（任务管理器）也是很典型的单例模式。 1.2 单例模式的经典写法单例模式还有有好几种实现方式，如懒汉模式、饿汉模式、双重校验锁，静态内部类，枚举等实现方式。懒汉: 实例在需要用到的时候，才去创建，存在线程安全的问题，需要加下 synchronized关

2026-01-05

#设计模式

LLM的训练过程

一般来说，训练一个完整的 LLM 需要经过如下图中的三个阶段——Pretrain、SFT 和 RLHF。第一阶段：PretrainPretrain（预训练）可以说是大模型“练基本功”的第一步，也是最烧钱、最耗资源的一步。就像让一个AI读遍互联网上所有的书和文章，自己学着怎么把话接下去。 LLM 的预训练和传统预训练模型非常类似，现在主流的大模型，比如GPT、LLaMA，都用的是一种叫“Deco

2025-09-19

#LLM

DataX源码解析-04插件加载原理

前言前面几篇的DataX系列源码解析，分别讲了整体架构、调度流程、数据传输，这篇将详细介绍DataX的各类插件是如何进行家加载的。 JobContainer.start()在JobContainer中，进入start()方法的this.init()方法 12345678910111213141516171819202122/** * reader和writer的初始化 */private void

2025-09-02

#大数据

DataX源码解析-03数据传输

前言在上篇文章中我们已经对于DataX的调度流程进行了细致的剖析，这篇文章我们将更深层次的研究DataX在数据传输与交换方面的细节。上篇提到，DataX核心运行子单位是TaskExecutor，一个TaskExecutor中会拥有两个线程，分别是WriterThread和ReaderThread，这两个线程承担着整个数据传输的重任，所以今天整篇文章的重点将围绕这两个线程展开。线程的创建来到Ta

2025-09-01

#大数据

DataX源码解析-02调度流程

前言上篇讲了DataX的整体架构，已经对DataX的架构和运行流程有了一个比较细致的了解。这篇主要集中于DataX在调度方面的深层细节。回顾DataX的执行路径为：启动类Engine.java-> entry() |根据mode初始化 AbstarctContainer（JobContainer/TaskGroupContainer）启动容器start() JobCont

2025-09-01

#大数据

DataX源码解析-01整体架构

前言近期在工作中需要用到DataX去作为公司内部离线数据同步引擎，好奇心驱使就花了一些时间研究了DataX的整体架构和设计思想，从中吸收了很多优秀的设计思路，作为一款纯Java实现的数据同步工具，相对于市面上已存在的基于大数据框架为背景的数据同步工具有着易部署、易扩展的优点，但不足的地方是alibaba只是开源了DataX单机模式代码，并未开源分布式部分代码，目前在Github中的只是阉割版是Da

2025-09-01

#大数据

基于OCR的身份证信息提取

背景用户上传的身份证照片各式各样，图像质量参差不齐，部分还存在水印，并且混杂身份证的正反面，这就导致在OCR识别过程中难度比较大。针对于此，进行图像预处理的各种尝试，大方向是将图像中的身份证框出来进行裁剪，让输入给OCR进行识别的图像尽可能质量好。尝试过如下方法： 1.利用opencv进行框选该方案由于图像大小、分辨率、背景区别差异大，效果不好 2.利用rembg算法进行抠图由于rem

2025-05-22

#CV

华东师范大学专业硕士毕业论文latex修改记录

硕士毕业论文latex修改记录overleaf官网下载的ECNU学硕/博论文模版运用到专业硕士上还是有点区别，需要修改模版的如下地方。自用。不对内容正确性负责。封面1.preface/inner-cover.tex 12345% ~ Line 4 xxxx届硕士专业学位研究生学位论文% 由\noindent{{\zihao{4} {

2025-02-19

#博客

Hexo+GitHub Pages搭建的个人博客加入到Bing搜索引擎

将中文网页名称转换为固定字符串hexo默认生成的页面是你的title名，即title是中文那么网站访问的路径也是中文，这样是很不利于搜索引擎收录的，让我们使用插件来解决这个问题。 1.安装缩短链接插件 npm install hexo-abbrlink --save 2.hexo的_config.yml 添加如下配置： 12345678permalink: posts/:abbrlink.html

2025-02-09

#博客