HDFS 基层交互原理,看这篇就够了
HDFS全称是 Hadoop Distribute File System,是 Hadoop最重要的组件之一,也被称为分步式存储之王。本文主要从 HDFS 高可用架构组成、HDFS 读写流程、如何保证可用性以及高频面试题出发,提高大家对 HDFS 的认识,掌握一些高频的 HDFS 面试题。本篇文章概览
因HIVE元数据与HDFS上的数据不一致引起的问题修补
客户端报错如下: Unable to move source xxx to destination xxx 客户端报错 问题分析 客户端的报错信息,并没有完全展现问题背后的全貌。我们进入 hiveserver2 所在节点查看hiveserver2的日志,可以看到如下相关信息: 2021-09-01 11:47:46,795 INFO org.
Hdfs 相对路径和静态代码块引起的问题
HIVE 作为大数据生态的数仓解决方案,因为历史的原因在很多行业很多公司都有着广泛的应用。对于比较复杂的业务逻辑,HIVE SQL 往往比较难以表达,此时大家在开发中往往会辅以 HIVE UDF。所以充分理解和掌握 HIVE UDF正确的表写和使用方式,是大数据从业人
HDFS中的Java和Python API接口连接
上次介绍了HDFS的简单操作,今天进入HDFS中的Java和Python的API操作,后面可能介绍Scala的相关的。在讲Java API之前介绍一下使用的IDEIntelliJ IDEA ,我本人使用的是2020.3 x64的社区版本。Java API创建maven工程,关于Maven的配置,在IDEA中,Maven下载源
分布式文件系统HDFS及其简单使用
在现代的企业环境中,单机容量往往无法存储大量数据,需要跨机器存储。统一管理分布在集群上的文件系统称为分布式文件系统。HDFSHDFS(Hadoop Distributed File System)是 Apache Hadoop 项目的一个子项目. Hadoop 非常适于存储大型数据 (比如 TB 和 PB), 其
分布式文件系统HDFS及其简单引用
在现代的企业环境中,单机容量往往无法存储大量数据,需要跨机器存储。统一管理分布在集群上的文件系统称为分布式文件系统。HDFSHDFS(Hadoop Distributed File System)是 Apache Hadoop 项目的一个子项目. Hadoop 非常适于存储大型数据 (比如 TB 和 PB), 其
HDFS 底层交换原理,看这篇就够了
HDFS全称是 Hadoop Distribute File System,是 Hadoop最重要的组件之一,也被称为分步式存储之王。本文主要从 HDFS 高可用架构组成、HDFS 读写流程、如何保证可用性以及高频面试题出发,提高大家对 HDFS 的认识,掌握一些高频的 HDFS 面试题。本篇文章概览
一篇关于HDFS的快照讲解
一个snapshot(快照)是一个全部文件系统、或者某个目录在某一时刻的镜像,使用vmware类似软件的同学指定,快照可以为虚拟机保存某个状态,如果做了更改,或者系统被折腾坏,还有个复原的操作。快照应用在如下场景中:防止用户的错误操作;备份:给hdfs目录做