hbase(五)hbase分区和优化
分区hbase直接通过制定规则来决定数据再各个regionServer的分布情况。可以得知数据越是均匀分布,读取性能应该是更好的。 手动分区通过手动指定分区的规则的形式对数据进行拆分。 创建表的时候指定分区规则. 1create 'one:sp_1',{NAME => 'info', VERSIONS => 1},SPLITS => ['10','20','30'] 此规则分成了4个区间,根据对应的row key 分为4个区。 插入数据 可以看到切分了4个分区,并且还有具体的region的分布情况。 生成16进制序列预分区. 此种方式只需要指定分区的数量,系统自动根据一定的规则来进行分区。 1create 'one:sp_2','info',{NUMREGIONS => 5, SPLITALGO => 'HexStringSplit'} 可 ...
hbase(四)hbase原理和工作流程
hbase 原理Hmaster 架构HMaster是 HBase集群的主节点,负责整个集群的管理工作。 分配Region:负责启动的时候分配Region到具体的 RegionServer; 负载均衡:一方面负责将用户的数据均衡地分布在各个 Region Server 上,防止Region Server数据倾斜过载。另一方面负责将用户的请求均衡地分布在各个 Region Server 上,防止Region Server 请求过热; 维护数据:发现失效的 Region,并将失效的 Region 分配到正常的 RegionServer 上,并且在Region Sever 失效的时候,协调对应的HLog进行任务的拆分。 预写日志管理,master 会将master的相关操作写入 maste的WAL 日志中。当master 挂了后,由backUp Master根据日志内容继续操作。 hdfs 中的 /hbase/MasterData 目录下存放的是 master 相关的数据。 hbase:meta 这个表中记录了元数据信息,这个表的数据由master来进行写入,meta ...
hbase(三)hbaseShell和Api操作
hbase Shell执行 bin/hbase 命令 可以看到有很多可以执行的子命令操作 123456789101112131415161718192021222324252627282930313233343536373839./hbase Usage: hbase [<options>] <command> [<args>]Options: --config DIR Configuration direction to use. Default: ./conf --hosts HOSTS Override the list in 'regionservers' file --auth-as-server Authenticate to ZooKeeper using servers configuration --internal-classpath Skip attempting to use client facing jars (WARNING: unstable ...
kafka(一)kafka基本介绍
简单介绍kafka 官网 https://kafka.apache.org/ 开源的分布式的基于订阅 消费模式的消息队列中间件,性能非常优秀常被用在大数据和日志处理领域。 消息队列的主要的应用和场景主要是 削峰 , 解耦 , 异步。 kafka 中的一些概念 Topic 可以理解为一个队列,生产者向一个指定的topic中发送消息,消费者消费指定topic中的消息 Producer 消息生产者客户端 Consumer 消费消息的客户端 Broker kafka 处理消息的服务,生产者和消费者都需要连接broker,由broker 协调处理消费的接受和发送等逻辑。一个kafka集群中由多个broker组成,一个broker中可以处理多个topic Partition 分区,如果一个topic中的消息非常的多,为了扩展topic的处理能力,将一个topic根据一定的规则(比如取模)将数据分散到不同的broker中,每个broker处理部分数据。生产者发送消息的时候根据一定的规则将topic中的数据分散到不同的分区。 Consumer Group(CG):消费者组 是一个逻辑的概 ...
虚拟机中网络无法重启和连接
虚拟机中 linux 无法连接问题提示信息 network.service – LSB: Bring up/down networking 完整信息 解决方式1,关闭NetworkManager 服务 NetworkManager 介绍 参考链接 https://blog.csdn.net/qq_35745940/article/details/118655684 执行停止和禁用 1234systemctl stop NetworkManagersystemctl disable NetworkManager 重启网卡 1systemctl restart network 通过 ip addr 查看ip 可正常连接。 参考链接 https://raksmart.idcspy.com/3248
hbase(二)hbase安装
安装这里使用3台机器。 192.168.1.103192.168.1.104192.168.1.105 hbase 依赖于hadoop和zookeeper,所以这2个组件需要提前安装。 下载hbase https://archive.apache.org/dist/hbase/ 这里使用的版本是 2.4.0 https://archive.apache.org/dist/hbase/2.4.0/ 下载文件 解压文件 1tar -zxvf hbase-2.4.0-bin.tar.gz -C /usr/local/software/hbase 3台机器上都做此种操作,或将文件同步到其他机器上。 配置环境变量 1sudo vim /etc/profile.d/my_env.sh 1source /etc/profile 三台机器都需要执行此操作。 修改habse配置文件 找到HBAE_HOME/conf目录下的配置文件 hbase-env.sh。 123# Tell HBase whether it should manage it ...
hbase(一)基本介绍
hbase 介绍Apache HBase是一种开源、分布式、版本控制的非关系型数据库,模仿Google的Bigtable:Chang等人的结构化数据分布式存储系统。正如Bigtable利用了Google文件系统提供的分布式数据存储一样,Apache HBase在Hadoop和HDFS之上提供了类似Bigtable的功能。hbase 是apache中的一个开源项目是大数据生态中的一个比较重要的项目。 官网: https://hbase.apache.org/ 主要的特点是可以直接数据的海量存储,支持数十亿行×数百万列。 Hbase 可以理解为hadoop database ,因为 hbase 的数据存储是依赖于hadoop中的hdfs 的。数据都是存储在hdfs中的。 hbase 结构逻辑结构对于一般的关系型数据库表格,基本的信息是列 和行,对于每个行都有一个唯一标识id 信息。并且每个数据行都有共同的列。 而Hbase 的数据结构看做一个表格的话有一些不同。 首先对于每个行 都有一个row key 属性。 通过row key 能够找到对应的数据行。数据存储的时候根据row key ...
Hive(九)Hive数据压缩和hive查询优化
hive 压缩和优化压缩hadoop 执行阶段可以配置一些数据压缩策略以减少数据的传输。 </archives/39578da0.html#hadoop-%E6%95%B0%E6%8D%AE%E5%8E%8B%E7%BC%A9> 在hive执行的时候也可以指定启用压缩和压缩的相关的配置 开启数据压缩12set hive.exec.compress.intermediate=true; hive 传输中的数据压缩开启 1set mapreduce.map.output.compress=true; map 阶段的输出的数据压缩开启 12set mapreduce.map.output.compress.codec= org.apache.hadoop.io.compress.SnappyCodec; 指定map阶段的数据压缩的实现方式 1set hive.exec.compress.output=true; hive 最终输出的数据的压缩开启 1set mapreduce.output.fileoutputformat.compress=true; 开启m ...
Hive(八)Hive中的函数
HIVE 的函数hive 中有很多强大的计算函数,这在进行统计计算中是很有用的,而且支持通过代码的方式来自定义函数,非常的灵活。 函数的wiki文档连接 <LanguageManual UDF - Apache Hive - Apache Software Foundation> 查看函数和用法除了通过文档查看,也有命令可以查看系统函数的使用方法 查看支持的函数 1show fucntions 可以看到内置了非常多的函数。 查看某个函数的详细用法 1desc function extended abs; 输出内容中显示了函数的使用实例和说明 常用函数NVL 此函数可以为一个为null的列赋值一个默认值; 1select nvl(comm,'123') from emp; 当comm 为null的时候,默认值为 ‘123’; CASE WHEN THEN ELSE END desc function extends case; 此函数对值做逻辑判断处理 split 此函数对结果进行split 分割; substring;字符 ...
Hive(七)Hive数据查询操作
查询支持基本ql的相关语法。 官方文档 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Select 基本查询格式 1234567891011[WITH CommonTableExpression (, CommonTableExpression)*] (Note: Only available starting with Hive 0.13.0)SELECT [ALL | DISTINCT] select_expr, select_expr, ... FROM table_reference [WHERE where_condition] [GROUP BY col_list] [ORDER BY col_list] [CLUSTER BY col_list | [DISTRIBUTE BY col_list] [SORT BY col_list] ] [LIMIT [offset,] rows] 测试数据准备创建员工表和部门表 dept 123456710 ACCOUNTIN ...





