TechBlog
首页分类标签搜索关于
← 返回标签列表
加载中...

© 2025 TechBlog. All rights reserved.

#标签

共 77 篇文章
一文讲透CentOS下安装部署使用MYSQL

一文讲透CentOS下安装部署使用MYSQL

本文详细介绍了MySQL8.0在CentOS系统上的安装部署及常见问题解决方法。主要内容包括:两种安装方式:通过源码包手动安装和通过Yum源自动安装,涵盖卸载冲突组件、依赖检查、初始化配置等完整步骤;常见问题处理:表名大小写设置、连接数超限、超时配置优化等解决方案;数据维护方法:定时备份脚本编写、数据导入导出操作、mysqldump工具的使用技巧;日常管理命令:包括服务启停、开机自启设置、参数查看等实用指令。文档提供了从安装到运维的全流程指导,包含大量实际命令示例,适合作为MySQL数据库管理员

时间:12/24/2025

EXCEL使用VBA代码实现按条件查询数据库-简单实用

EXCEL使用VBA代码实现按条件查询数据库-简单实用

'获取工作表的最后一行和最后一列'lastRow=ThisWorkbook.Sheets("Sheet1").Cells(ThisWorkbook.Sheets("Sheet1").Rows.Count,1).End(xlUp).Row'获取工作表的最后一行'

时间:12/22/2025

AI-驱动的异构-ETL-环境数据血缘管理系统

AI-驱动的异构-ETL-环境数据血缘管理系统

本文介绍了一个基于AI技术的自动化数据血缘发现系统。系统采用微服务架构,通过SQL解析引擎和语义分析自动追踪异构ETL环境中的数据血缘关系。核心组件包括:1)AI增强的SQL解析引擎,结合NLP模型分析SQL语义,提取输入输出表和转换逻辑;2)图数据库存储设计,以节点和边表示表列血缘关系;3)RESTAPI提供血缘查询功能,支持按表或列进行多级追溯。系统实现了从SQL语句到完整血缘图谱的自动化构建,为数据治理提供可视化支持。

时间:12/17/2025

vsGPU硬件参数的数据仓库设计ETL流程与前端OLAP分析

vsGPU硬件参数的数据仓库设计ETL流程与前端OLAP分析

通过构建一个结构化的数据仓库,并提供OLAP式的交互界面,这类工具成功地将复杂、高维的数据转化为用户可探索的、有价值的决策信息。这种技术模式,预示着未来所有涉及海量、多维数据的Web应用,都将向数据仓库和OLAP的架构演进。,其强大的自定义和排序功能,正是其后端可能采用了数据仓库和ETL流程,前端实现了OLAP式分析的体现。将数据仓库和OLAP的思想应用于硬件参数对比,极大地提升了决策的科学性和效率。一个科学的对比工具,必须在后端构建一个强大的数据处理流水线。

时间:12/16/2025

数据仓库基本概念

数据仓库基本概念

建立统一标准的数据规范和开发规范,确保整个数仓团队里面的人看到表名和字段名就能大概知道个七七八八。这里的规范包括但不限于:数据域命名规范、表名命名规范、指标命名规范、数据存储格式规范等等。

时间:12/13/2025

数据仓库中保障数据质量的关键环节任务发布后数据校验

数据仓库中保障数据质量的关键环节任务发布后数据校验

在数据仓库的生命周期中,任务发布不是终点,而是数据质量保障的新起点。通过系统性地开展完整性、一致性、准确性三大维度的校验,能够有效防范数据问题蔓延至下游,提升数据可信度与团队协作效率。“宁可慢一点发布,也不要快一点出错。随着数据驱动决策的深入,构建自动化、标准化、可持续的数据校验体系,已成为企业数据治理能力的重要体现。附录:常见数据校验场景速查表场景推荐校验方式新任务首次上线行数比对+抽样核对+主外键检查字段逻辑变更准确性验证+趋势对比历史数据重跑完整性+一致性+去重检查。

时间:12/13/2025

hive中with-as用法及注意事项

hive中with-as用法及注意事项

witht1as(select*fromtable1)--该语句执行会报错--正确写法:(没有使用t1没关系,其后有select就行)

时间:12/03/2025

Apache-Doris-在小米统一-OLAP-和湖仓一体的实践

Apache-Doris-在小米统一-OLAP-和湖仓一体的实践

本文将详细介绍小米数据中台基于ApacheDoris3.0的查询链路优化、性能提升、资源管理、自动化运维、可观测等一系列应用实践。

时间:12/02/2025

hive案例

hive案例

substring_index(floor_level,'(',1)asfloor_level,substring_index(substring_index(floor_level,'共',-1),'层',1)astotal_floor,

时间:12/02/2025

hive-广电大数据分析

hive-广电大数据分析

1.创建存储格式为TextFile的观看历史表text_see和用户信息表text_user(用于存储原始数据)。并创建存储格式为ORC的表orc_see和orc_user。12.对orc_see表按照用户GroupBy聚合,然后统计组内的时长即可。3.用户信息文件userevents.txt存储在本地系统/opt/datas目录下,将其导入表text_user中。5.将表text_user中数据加载到表orc_user中。4.将表text_see中数据加载到表orc_see中。

时间:11/26/2025

数据仓库深度探索系列数仓建设全流程解析

数据仓库深度探索系列数仓建设全流程解析

数据仓库建设全流程深度解析:从需求到架构的完整指南本文系统介绍了数据仓库建设的全流程,涵盖前期调研、数据域划分、指标体系构建、总线矩阵设计、数据模型选择、数据治理及运维优化等关键环节。文章强调业务导向的设计思路,详细讲解了如何通过需求分析、业务调研和数据调研奠定建设基础,并提供了多种数据域划分方法。在技术层面,重点解析了维度建模、范式建模等主流方法的特点与适用场景,以及总线架构的核心设计原则。同时,文章还阐述了数据治理的理论框架和实践路径,强调数据资产化管理的重要性。最后指出,持续优化和创新是确保数据仓库

时间:11/20/2025

带你从概念到服务对象,解读商业智能BI

带你从概念到服务对象,解读商业智能BI

摘要:商业智能BI作为数据价值化的关键技术解决方案,通过整合企业多源数据、构建分析模型和可视化展现,实现从数据到决策的转化。其核心价值在于打通ERP、CRM等业务系统,解决数据孤岛问题,为企业管理层提供数据驱动的决策支持。在企业信息化建设中,BI承担承上启下的关键角色,连接底层业务数据与高层管理决策,推动企业从经验驱动向数据驱动的管理模式转变。

时间:11/17/2025

怎么用数据仓库来进行数据治理

怎么用数据仓库来进行数据治理

本文从数据治理与数据仓库的关系切入,探讨如何通过数据仓库实现有效数据治理。文章指出数据仓库作为数据治理的核心载体,能够集中管理数据、统一标准并确保质量。具体实施分为五大步骤:建立数据规范、严格质量控制、构建元数据目录、保障数据安全、优化生命周期管理。作者强调数据治理需以业务需求为导向,通过持续迭代和跨部门协作,将分散数据转化为可信资产。最后提醒读者,技术工具仅是辅助,成功关键在于团队对数据标准的共识与执行。

时间:11/13/2025

StarRocks数据仓库

StarRocks数据仓库

StarRocks是一款,由字节跳动开源(2020年开源,2023年进入Apache孵化器),核心定位是“实时数仓+湖仓一体”,专为PB级数据的快速查询、多维分析、实时报表等场景设计,广泛应用于互联网、金融、零售、政务等行业。

时间:11/03/2025

数据仓库简介一

数据仓库简介一

本文介绍数据仓库的概念、特点及技术实现。数据仓库诞生的背景是企业各业务系统数据不一致、缺乏统一规范。其核心特点是面向主题、集成、非易失和时变,与面向事务的数据库形成对比(OLTPvsOLAP)。技术实现上,传统MPP架构适合中等规模数据,但存在扩展性和热点问题;大数据分布式架构更适合海量数据处理。常见产品包括OracleRAC、Teradata等传统方案,以及Hive、SparkSQL等大数据方案。数据仓库主要用于历史数据分析,为决策提供支持。

时间:11/02/2025

达梦数据库到Greenplum用ETL工具实现数据仓库迁移

达梦数据库到Greenplum用ETL工具实现数据仓库迁移

本文介绍利用ETLCloud平台实现达梦与Greenplum间高效批量数据同步,提升数据流通与业务灵活性。

时间:10/31/2025

一文讲清数据清洗数据中台数据仓库数据治理

一文讲清数据清洗数据中台数据仓库数据治理

本文系统阐述了企业数据管理的四个关键环节:数据清洗、数据仓库、数据中台和数据治理。数据清洗是基础工作,解决原始数据中的缺失值、错误值等问题;数据仓库作为"历史档案馆",按主题存储清洗后的数据;数据中台则在仓库基础上构建敏捷的数据服务能力;数据治理则贯穿全程,确保数据质量与安全。这四个环节构成了从原始数据到业务赋能的完整链路,共同支撑企业的数据驱动决策和创新发展。文章强调建立整体认知比钻研单一技术更重要,帮助企业系统性地"用好数据"。

时间:10/30/2025

C程序实现将Teradata的存储过程转换为Snowflake的sql的存储过程

C程序实现将Teradata的存储过程转换为Snowflake的sql的存储过程

12.9测试项目配置(TeradataToSnowflakeConverter.Tests.csproj)12.7数据类型和函数测试(DataTypeFunctionTests.cs)5.1控制流转换器(ControlFlowConverter.cs)12.2基础语法转换测试(BasicSyntaxTests.cs)12.3控制流测试(ControlFlowTests.cs)12.6异常处理测试(ExceptionTests.cs)

时间:10/29/2025

Hive数据仓库架构原理与实践指南

Hive数据仓库架构原理与实践指南

Hive数据仓库概述与实践指南Hive是Apache基金会旗下的开源数据仓库工具,通过类SQL查询语言(HQL)简化Hadoop上的大数据处理,无需编写复杂代码。本文深入探讨了Hive的架构设计与核心组件,包括用户接口层、服务层、执行引擎层和存储层的四层架构,以及Driver、Metastore等核心组件功能。同时详细介绍了Hive支持的数据类型(原始类型和复杂类型)和四种表类型(管理表、外部表、分区表、分桶表)的特点与应用场景,为大数据处理提供了高效解决方案。

时间:10/24/2025

AWS-Redshift-数据仓库完整配置与自动化管理指南

AWS-Redshift-数据仓库完整配置与自动化管理指南

这套完整的解决方案确保了Redshift数据仓库的安全性、高可用性和高性能,同时通过自动化脚本降低了运维复杂度。实际部署时,请根据具体业务需求调整配置参数。首先,我们需要创建Redshift集群。

时间:10/15/2025

Spark专题-第二部分Spark-SQL-入门8-算子介绍-sort

Spark专题-第二部分Spark-SQL-入门8-算子介绍-sort

在Spark SQL中,排序操作通过SortExec物理算子实现。不同的SQL排序语法会产生不同的执行计划,涉及不同的数据分布和排序策略。小数据全局排序: 使用ORDER BY,但注意内存限制大数据局部排序: 使用SORT BY或CLUSTER BY优化数据分布: 使用DISTRIBUTE BY为后续操作准备数据监控内存使用: 排序操作容易导致内存溢出,需要合理配置利用自适应查询: 启用Spark的自适应查询执行优化排序过程这下应该没有遗漏的重要算子了。

时间:09/27/2025

从-ETL-到-Agentic-AI工业数据管理变革与-TDengine-IDMP-的治理之道

从-ETL-到-Agentic-AI工业数据管理变革与-TDengine-IDMP-的治理之道

从 ETL 到 ELT,工业数据管理的目标一直没变:让数据 “存得下、用得快、出价值”。但光有 ELT 不够,光有 AI 也不够——得有一个平台,把 “数据情景化” 做好,让 AI 能 “看懂数据、用好数据”。TDengine IDMP 做的就是这件事:它不是单纯的 “数据库扩展”,也不是 “治理工具”,而是把 “存储、情景化、AI 协作” 串起来的工业数据中枢。它解决的是工业数据的 “最后一公里” 问题——从 “存下数据” 到 “挖出价值”。

时间:09/05/2025

告别-Hadoop,拥抱-StarRocks政采云数据平台升级之路

告别-Hadoop,拥抱-StarRocks政采云数据平台升级之路

StarRocks 为政企采购数字化领域的不断创新发展注入源源不断的“数据动力”。

时间:09/03/2025

数字化时代,中小企业如何落地数字化转型

数字化时代,中小企业如何落地数字化转型

中小企业数字化转型势在必行。虽然面临人才短缺、资金不足等挑战,但数字化转型能显著提升企业运营效率、优化业务流程,并创造新的商业价值。与大型企业不同,中小企业需结合自身特点制定适宜的转型路径,而非盲目照搬成功案例。政府已出台支持政策,企业应抓住机遇,通过信息化建设、数据可视化分析等手段,逐步实现数据资产价值变现,在数字化浪潮中增强竞争力。

时间:09/01/2025

上一页
1234
下一页第 1 / 4 页