“不凉的凉白开”的Blog

Created2022-05-22|IT技术大数据HBASE| comments

分区hbase直接通过制定规则来决定数据再各个regionServer的分布情况。可以得知数据越是均匀分布，读取性能应该是更好的。手动分区通过手动指定分区的规则的形式对数据进行拆分。创建表的时候指定分区规则. 1create 'one:sp_1',{NAME => 'info', VERSIONS => 1},SPLITS => ['10','20','30'] 此规则分成了4个区间，根据对应的row key 分为4个区。插入数据可以看到切分了4个分区,并且还有具体的region的分布情况。生成16进制序列预分区. 此种方式只需要指定分区的数量，系统自动根据一定的规则来进行分区。 1create 'one:sp_2','info',{NUMREGIONS => 5, SPLITALGO => 'HexStringSplit'} 可 ...

hbase(四)hbase原理和工作流程

Created2022-05-18|IT技术大数据HBASE| comments

hbase 原理Hmaster 架构HMaster是 HBase集群的主节点，负责整个集群的管理工作。分配Region：负责启动的时候分配Region到具体的 RegionServer；负载均衡：一方面负责将用户的数据均衡地分布在各个 Region Server 上，防止Region Server数据倾斜过载。另一方面负责将用户的请求均衡地分布在各个 Region Server 上，防止Region Server 请求过热；维护数据：发现失效的 Region，并将失效的 Region 分配到正常的 RegionServer 上，并且在Region Sever 失效的时候，协调对应的HLog进行任务的拆分。预写日志管理,master 会将master的相关操作写入 maste的WAL 日志中。当master 挂了后，由backUp Master根据日志内容继续操作。 hdfs 中的 /hbase/MasterData 目录下存放的是 master 相关的数据。 hbase：meta 这个表中记录了元数据信息，这个表的数据由master来进行写入，meta ...

hbase(三)hbaseShell和Api操作

Created2022-05-14|IT技术大数据HBASE| comments

hbase Shell执行 bin/hbase 命令可以看到有很多可以执行的子命令操作 123456789101112131415161718192021222324252627282930313233343536373839./hbase Usage: hbase [<options>] <command> [<args>]Options: --config DIR Configuration direction to use. Default: ./conf --hosts HOSTS Override the list in 'regionservers' file --auth-as-server Authenticate to ZooKeeper using servers configuration --internal-classpath Skip attempting to use client facing jars (WARNING: unstable ...

kafka(一)kafka基本介绍

Created2022-05-13|IT技术大数据kafka| comments

简单介绍kafka 官网 https://kafka.apache.org/ 开源的分布式的基于订阅消费模式的消息队列中间件，性能非常优秀常被用在大数据和日志处理领域。消息队列的主要的应用和场景主要是削峰 , 解耦 , 异步。 kafka 中的一些概念 Topic 可以理解为一个队列，生产者向一个指定的topic中发送消息，消费者消费指定topic中的消息 Producer 消息生产者客户端 Consumer 消费消息的客户端 Broker kafka 处理消息的服务，生产者和消费者都需要连接broker,由broker 协调处理消费的接受和发送等逻辑。一个kafka集群中由多个broker组成，一个broker中可以处理多个topic Partition 分区，如果一个topic中的消息非常的多，为了扩展topic的处理能力，将一个topic根据一定的规则（比如取模）将数据分散到不同的broker中，每个broker处理部分数据。生产者发送消息的时候根据一定的规则将topic中的数据分散到不同的分区。 Consumer Group（CG）：消费者组是一个逻辑的概 ...

虚拟机中网络无法重启和连接

Created2022-05-09|IT技术Linux| comments

虚拟机中 linux 无法连接问题提示信息 network.service – LSB: Bring up/down networking 完整信息解决方式1,关闭NetworkManager 服务 NetworkManager 介绍参考链接 https://blog.csdn.net/qq_35745940/article/details/118655684 执行停止和禁用 1234systemctl stop NetworkManagersystemctl disable NetworkManager 重启网卡 1systemctl restart network 通过 ip addr 查看ip 可正常连接。参考链接 https://raksmart.idcspy.com/3248

hbase(二)hbase安装

Created2022-05-08|IT技术大数据HBASE| comments

安装这里使用3台机器。 192.168.1.103192.168.1.104192.168.1.105 hbase 依赖于hadoop和zookeeper，所以这2个组件需要提前安装。下载hbase https://archive.apache.org/dist/hbase/ 这里使用的版本是 2.4.0 https://archive.apache.org/dist/hbase/2.4.0/ 下载文件解压文件 1tar -zxvf hbase-2.4.0-bin.tar.gz -C /usr/local/software/hbase 3台机器上都做此种操作，或将文件同步到其他机器上。配置环境变量 1sudo vim /etc/profile.d/my_env.sh 1source /etc/profile 三台机器都需要执行此操作。修改habse配置文件找到HBAE_HOME/conf目录下的配置文件 hbase-env.sh。 123# Tell HBase whether it should manage it&#x ...

hbase(一)基本介绍

Created2022-05-07|IT技术大数据HBASE| comments

hbase 介绍Apache HBase是一种开源、分布式、版本控制的非关系型数据库，模仿Google的Bigtable：Chang等人的结构化数据分布式存储系统。正如Bigtable利用了Google文件系统提供的分布式数据存储一样，Apache HBase在Hadoop和HDFS之上提供了类似Bigtable的功能。hbase 是apache中的一个开源项目是大数据生态中的一个比较重要的项目。官网: https://hbase.apache.org/ 主要的特点是可以直接数据的海量存储，支持数十亿行×数百万列。 Hbase 可以理解为hadoop database ,因为 hbase 的数据存储是依赖于hadoop中的hdfs 的。数据都是存储在hdfs中的。 hbase 结构逻辑结构对于一般的关系型数据库表格，基本的信息是列和行，对于每个行都有一个唯一标识id 信息。并且每个数据行都有共同的列。而Hbase 的数据结构看做一个表格的话有一些不同。首先对于每个行都有一个row key 属性。通过row key 能够找到对应的数据行。数据存储的时候根据row key ...

Hive(九)Hive数据压缩和hive查询优化

Created2022-04-17|IT技术大数据HIVE| comments

hive 压缩和优化压缩hadoop 执行阶段可以配置一些数据压缩策略以减少数据的传输。 </archives/39578da0.html#hadoop-%E6%95%B0%E6%8D%AE%E5%8E%8B%E7%BC%A9> 在hive执行的时候也可以指定启用压缩和压缩的相关的配置开启数据压缩12set hive.exec.compress.intermediate=true; hive 传输中的数据压缩开启 1set mapreduce.map.output.compress=true; map 阶段的输出的数据压缩开启 12set mapreduce.map.output.compress.codec= org.apache.hadoop.io.compress.SnappyCodec; 指定map阶段的数据压缩的实现方式 1set hive.exec.compress.output=true; hive 最终输出的数据的压缩开启 1set mapreduce.output.fileoutputformat.compress=true; 开启m ...

Hive(八)Hive中的函数

Created2022-04-16|IT技术大数据HIVE| comments

HIVE 的函数hive 中有很多强大的计算函数，这在进行统计计算中是很有用的，而且支持通过代码的方式来自定义函数，非常的灵活。函数的wiki文档连接 <LanguageManual UDF - Apache Hive - Apache Software Foundation> 查看函数和用法除了通过文档查看，也有命令可以查看系统函数的使用方法查看支持的函数 1show fucntions 可以看到内置了非常多的函数。查看某个函数的详细用法 1desc function extended abs; 输出内容中显示了函数的使用实例和说明常用函数NVL 此函数可以为一个为null的列赋值一个默认值; 1select nvl(comm,'123') from emp; 当comm 为null的时候，默认值为 ‘123’; CASE WHEN THEN ELSE END desc function extends case; 此函数对值做逻辑判断处理 split 此函数对结果进行split 分割; substring;字符 ...

Hive(七)Hive数据查询操作

Created2022-04-16|IT技术大数据HIVE| comments

查询支持基本ql的相关语法。官方文档 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Select 基本查询格式 1234567891011[WITH CommonTableExpression (, CommonTableExpression)*] (Note: Only available starting with Hive 0.13.0)SELECT [ALL | DISTINCT] select_expr, select_expr, ... FROM table_reference [WHERE where_condition] [GROUP BY col_list] [ORDER BY col_list] [CLUSTER BY col_list | [DISTRIBUTE BY col_list] [SORT BY col_list] ] [LIMIT [offset,] rows] 测试数据准备创建员工表和部门表 dept 123456710 ACCOUNTIN ...