TechBlog
首页分类标签搜索关于
← 返回标签列表
加载中...

© 2025 TechBlog. All rights reserved.

#标签

共 66 篇文章
Hadoop如何用Flink支持实时数据分析需求

Hadoop如何用Flink支持实时数据分析需求

摘要:ClouderaCDP7.3通过集成Kafka、Flink、Kudu等组件构建批流融合架构,支持毫秒级实时数据分析。其核心方案包括Kafka作为消息总线、Flink/SparkStreaming流处理、Kudu+Impala实时存储查询组合,适用于金融风控、实时监控等场景。该平台通过资源隔离、Checkpoint优化等手段提升性能,并支持ML模型实时推理。尽管在ARM架构下存在组件兼容性问题,但整体提供了企业级可治理的实时分析解决方案,尤其适合强监管行业的低延迟需求。

时间:12/22/2025

Flink学习笔记反压

Flink学习笔记反压

本文介绍了Flink中的反压机制及其监控方法。反压是流式系统中下游对上游的数据处理反馈机制,当上游生产速度超过下游消费速度时触发。Flink数据传输分三种情况:同线程直接共享内存、本地跨线程通过Buffer交互、远程跨节点通过网络传输。反压监控通过WebUI显示状态(OK/LOW/HIGH),分别对应不同的反压程度。文章详细分析了本地和远程场景下反压的感知原理,为Flink运维提供了重要参考。

时间:12/12/2025

Flink学习笔记状态后端

Flink学习笔记状态后端

Flink状态存储机制解析:介绍了两种状态后端(HashMapStateBackend和EmbeddedRocksDBStateBackend)的存储方式、特点及适用场景,以及Checkpoint存储类型(JobManager和FileSystem)的配置方法。详细说明了三种组合配置方式(MemoryStateBackend、FsStateBackend、RocksDBStateBackend)及其实现代码,并解释了状态序列化/反序列化过程。帮助开发者根据应用需求选择合适的状态存储方案。

时间:12/11/2025

Apache-Flink-SQL-入门与常见问题解析

Apache-Flink-SQL-入门与常见问题解析

ApacheFlink是一个开源的分布式流处理框架,支持高吞吐、低延迟、高性能的实时数据处理。随着Flink生态的发展,FlinkSQL作为其重要组成部分,为开发者提供了一种类SQL的声明式编程接口,使得非专业开发人员也能轻松构建复杂的流式计算任务。FlinkSQL基于ApacheCalcite实现,兼容标准SQL语法,并支持批处理(Batch)和流处理(Streaming)统一的API。

时间:12/09/2025

Flink-SQL-Window-Join-把时间维度写进-JOIN-条件里

Flink-SQL-Window-Join-把时间维度写进-JOIN-条件里

WindowJoin是FlinkSQL中基于时间窗口的表连接操作,其核心特点是:时间窗口约束:数据按窗口切分,仅在相同窗口内且key匹配的记录间进行关联状态清理:窗口结束时输出结果并清理状态,避免无限膨胀语法上必须满足:左右表需通过WindowingTVF处理JOIN条件必须包含窗口边界相等窗口类型和参数需完全一致支持多种JOIN形态:INNER/LEFT/RIGHT/FULLOUTERSEMIJOIN(通过IN或EXISTS实现)典型应用场景包括订单匹配、事件关联和业务

时间:12/09/2025

Flink数据流分布式写入文件实战

Flink数据流分布式写入文件实战

摘要:本文介绍了使用ApacheFlink将数据流以文本形式写入文件的方法。代码通过StreamingFileSink配置了文件输出路径和UTF-8编码格式,并设置了基于时间(15分钟滚动/5分钟无数据)和大小(1GB)的滚动策略。主程序从Event对象生成数据流,转换为字符串后写入指定目录。执行后数据会按策略分割成多个文件,内容格式为"Event(字段1,字段2,字段3)"。该方案适用于需要将流数据持久化存储的场景。

时间:12/08/2025

Flink-SQL-Join-从-Regular-Join-到-Temporal-Join-的实战

Flink-SQL-Join-从-Regular-Join-到-Temporal-Join-的实战

LookupJoin基本可以视为“处理时间时态Join+外部维表Connector”。对一个不断变化的维度表,在某个给定时间点回放出“当时的版本”,并和事实流Join。实时行为/订单流+MySQL/HBase/Redis中的维度表,做字段补全。“订单和支付/发货根据时间做关联,只允许在一个时间区间内Join。左表每一行作为参数,调用一次表函数,将返回的多行和这行Join。订单按下单时刻的汇率换算成USD,而不是按当前最新汇率。,如果直接按写的顺序算,很有可能中间状态巨大。

时间:12/08/2025

flink从kafka读取数据

flink从kafka读取数据

好的,我们来讲解如何在ApacheFlink中从ApacheKafka读取数据。这是构建实时流处理应用的一个常见场景。

时间:12/06/2025

Flink-SQL-查询Queries从-sqlQuery-到-executeSql

Flink-SQL-查询Queries从-sqlQuery-到-executeSql

FlinkSQL执行的核心入口是通过TableEnvironment.sqlQuery()和executeSql()方法。sqlQuery()用于构建查询计划,返回Table对象;而executeSql()会真正执行任务,返回TableResult。对于SELECT查询,可以通过collect()或print()获取结果;INSERT语句则直接执行写入操作。FlinkSQL遵循ANSI标准,标识符区分大小写,字符串使用单引号表示,特殊字符可用反引号转义。流批一体

时间:12/03/2025

java-实现-flink-读-kafka-写-delta

java-实现-flink-读-kafka-写-delta

java实现flink读kafka写delta

时间:12/03/2025

flink实现写orc对数据进行分目录分区表写入

flink实现写orc对数据进行分目录分区表写入

flink实现写orc对数据进行分目录(分区表)写入

时间:12/01/2025

使用-Flink-CDC-搭建跨库-Streaming-ETLMySQL-Postgres-Elasticsearch-实战

使用-Flink-CDC-搭建跨库-Streaming-ETLMySQL-Postgres-Elasticsearch-实战

基于FlinkCDC的实时数据集成方案本教程演示了使用FlinkCDC实现多源数据实时ETL的方案。通过DockerCompose部署MySQL、PostgreSQL、Elasticsearch和Kibana环境,构建完整的流式数据处理链路。方案包含:数据源准备:MySQL存储商品和订单数据,PostgreSQL存储物流信息实时处理:FlinkSQL通过CDC连接器捕获源库变更,执行实时JOIN结果输出:将富化后的订单数据写入Elasticsearch可视化:通过Kibana展示实时

时间:11/25/2025

Flink实时数据处理

Flink实时数据处理

Flink的核心就一句话:处理源源不断产生的数据流。

时间:11/22/2025

Apache-Flink在地理信息系统GIS中的应用解析

Apache-Flink在地理信息系统GIS中的应用解析

本文探讨了ApacheFlink在GIS领域的应用价值与技术适配。通过Glink等空间扩展框架,Flink实现了OGC标准兼容的空间数据处理能力,支持实时过滤、关联分析、聚类挖掘等核心功能。文章从技术基础、应用能力、行业案例和优化方向四个维度展开分析,重点介绍了Flink在智慧交通、新能源充电网络和公共安全等场景中的实践成效,并提出了空间索引优化、资源配置调整等性能提升方案。研究表明,Flink有效解决了传统GIS系统离线处理的瓶颈,推动空间信息服务向实时化、智能化发展。未来随着三维GIS和机器学习的发展

时间:11/22/2025

SpringBoot集成Flink-CDC,实现对数据库数据的监听

SpringBoot集成Flink-CDC,实现对数据库数据的监听

CDC是(变更数据获取)的简称。核心思想是,监测并捕获数据库的变动(包括数据或数据表的插入、更新以及删除等),将这些变更按发生的顺序完整记录下来,写入到消息中间件中以供其他服务进行订阅及消费。/***反序列化数据,转为变更JSON对象*/@Override//5.获取操作类型CREATEUPDATEDELETE2:3;//7.输出数据/***从元数据获取出变更之前或之后的数据*/=null){

时间:11/21/2025

Flink-CDC-用-SqlServer-CDC-实时同步数据到-Elasticsearch

Flink-CDC-用-SqlServer-CDC-实时同步数据到-Elasticsearch

本文演示了如何通过FlinkCDC实现SqlServer到Elasticsearch的数据实时同步。主要步骤包括:使用DockerCompose部署SqlServer2019、Elasticsearch7.6.0和Kibana7.6.0环境在SqlServer中创建inventory数据库和products/orders表,并开启CDC功能配置Flink环境,添加SqlServerCDC和Elasticsearch连接器在FlinkSQL中定义CDC源表和ES目标表通过SQL实现表关

时间:11/21/2025

Flink-CDC-用-OceanBase-CDC-实时同步数据到-Elasticsearch

Flink-CDC-用-OceanBase-CDC-实时同步数据到-Elasticsearch

本文演示了如何使用FlinkSQL实现OceanBase到Elasticsearch的实时数据同步。通过DockerCompose启动包含OceanBaseCE、oblogproxy、Elasticsearch和Kibana的测试环境,在OceanBase中创建示例订单和商品表并插入数据。配置Flink环境后,使用OceanBaseCDC连接器定义源表,通过FlinkSQL将两表实时Join并写入Elasticsearch结果表。最终可在Kibana中实时查看数据变化,验证INSERT/UPDAT

时间:11/20/2025

Flink-CDC-用-Db2-CDC-实时同步数据到-Elasticsearch

Flink-CDC-用-Db2-CDC-实时同步数据到-Elasticsearch

本文介绍了如何通过Docker和FlinkCDC实现Db2到Elasticsearch的实时数据同步。首先使用docker-compose部署Db2、Elasticsearch和Kibana环境。然后在Flink中配置Db2CDC源表和Elasticsearch目标表,通过SQL建立同步管道。随后演示了在Db2中执行增删改操作后,数据如何实时反映到Elasticsearch索引中。文章还提供了Kibana查看数据的方法,并指出可扩展方向,如实时ETL、多表join等。整个流程构建了一个完整的Db2→Fl

时间:11/20/2025

Flink实时流处理实战构建你的第一个实时数据管道

Flink实时流处理实战构建你的第一个实时数据管道

文章摘要:本文探讨了流处理的核心概念及其与批处理的本质区别。数据本质上是持续产生的无界事件流,流处理能够实现低延迟、实时响应和更精确的建模。作者介绍了使用FlinkCDC进行流处理的方法,特别是通过flink-connector-mysql-cdc从MySQL捕获数据变更。文章包含完整的Maven依赖配置和Java代码示例,展示了如何构建实时数据管道,包括配置MySQLCDC源、设置执行环境参数和处理数据变更流。实现方案基于监控MySQL的binlog变更,并提供了详细的JDBC连接参数配置。

时间:11/20/2025

K8S环境中通过prometheus实现flink服务监控并给flink设置服务监测自动重启

K8S环境中通过prometheus实现flink服务监控并给flink设置服务监测自动重启

prometheus实现flink服务监控并给flink设置服务监测自动重启

时间:11/19/2025

Flink快速入门-安装与示例运行

Flink快速入门-安装与示例运行

本文介绍了在Linux系统上安装和运行Flink集群的完整流程。首先通过wget下载Flink1.17.2二进制包并解压,然后安装JDK11并配置环境变量。启动Flink集群后,可通过8081端口访问Web界面。文章还提供了Maven打包配置,说明如何将Java项目打包成JAR文件并提交到Flink集群运行,包括作业提交、状态检查和管理命令(如停止、重启作业等)。最后展示了成功运行作业后在控制台的显示效果。整个过程涵盖了从环境搭建到作业部署的完整操作指南。

时间:11/19/2025

Apache-Flink运行环境搭建

Apache-Flink运行环境搭建

TaskManager管理的TaskSlot个数,依据当前物理机的核心数来配置,一般预留出一部分核心(25%)给系统及其他进程使用,一个slot对应一个core。#每个TaskManager提供的任务slots数量大小,它的意思是当前task能够同时执行的线程数量(实际生产环境建议是CPU核心-1)flink01jobmanager.rpc.address都为flink01。登录flink02,flink03(worker节点)修改为flink01[flink02/flink03]

时间:11/14/2025

用-Paimon-做实时数据湖Flink-CDC-Pipeline-的-Paimon-Sink-实战

用-Paimon-做实时数据湖Flink-CDC-Pipeline-的-Paimon-Sink-实战

本文介绍在数据管道中选择Paimon作为数据湖存储的方案。Paimon支持自动建表与Schema同步、主键表与幂等写入,适配批流统一场景。文章提供了MySQL到Paimon的配置模板,详细说明了关键参数如Catalog元数据存储、分区键配置等,并强调Paimon仅支持主键表。此外,还涵盖了一致性语义、Schema变更处理、数据类型映射等核心功能,并给出性能优化建议和常见问题解决方法,建议上线前进行小表预演、字段校验和压测验证,确保数据质量。

时间:11/12/2025

flinkcdc抽取postgres数据

flinkcdc抽取postgres数据

flinkcdc抽取postgres数据

时间:11/12/2025

上一页
123
下一页第 1 / 3 页