Flume-1.x

cuteximi 12月 06, 2016

今日学习目标

HBase 优化
Flume 是什么
核心组件介绍
使用场景
可靠性
[* ] 杂记

学习进度

Flume（完）

一天总结

Hbase 优化

1.建表时
预分区，在创建表的时候，会自动创建一个分区，导入数据时，数据会源源不断的填充到这个分区，达到一定阈值，会进行等分成两个region。一种可以加快批量数据导入的方法是建立预分区，预先创建一些新的分区，数据导入时，会根据分区情况，进行数据分负载均衡。
row key 的规则：越小越好，设计成定长，按照字典排序，倒序可以使用一个最大值减去当前值。根据实际业务来设计，取反，哈希。
column family:不要建立太多的列族；
Max version： 设置版本数。
Compact 和 split

Flume 是什么？

Flume 是一种分布式的日志收集框架，用于高效收集，聚合和移动大量且多数据源的日志数据。定制各类数据的发送方。

Flume是Cloudera公司开发的、用于实时收集服务器（apache/ngnix等）日志数据的框架。

本文介绍的是 NG 版本，也就是 Flume 重构之后的版本，目前十分稳定。1.x 以及之后的版本叫做 NG

0.9 的架构：可以只是用 zk 做master的HA高可用。

image.png | left | 549x462

Flume 的数据流由事件(Event)贯穿始终。事件是 Flume 的基本数据单位，它携带日志数据(字节数组形式)并且携带有头信息，这些 Event 由 Agent 外部的 Source 生成，当 Source 捕获事件后会进行特定的格式化，然后 Source 会把事件推入(单个或多个)Channel中。你可以把 Channel 看作是一个缓冲区，它将保存事件直到 Sink 处理完该事件。Sink 负责持久化日志或者把事件推向另一个Source。

image | left

Client：Client生产数据，运行在一个独立的线程。

Event：一个数据单元，消息头和消息体组成。（Events可以是日志记录、 avro 对象等。）

Flow：Event从源点到达目的点的迁移的抽象。

Agent：一个独立的Flume进程，包含组件Source、

Source：数据收集组件。（source从Client收集数据，传递给Channel）

Channel：中转Event的一个临时存储，保存由Source组件传递过来的Event。（Channel连接 sources 和 sinks ，这个有点像一个队列。）

Sink：从Channel中读取并移除Event，将Event传递到FlowPipeline中的下一个Agent（如果有的话）（Sink从Channel收集数据，运行在一个独立线程。）

Flume 配置使用

核心组件介绍

分别介绍上面的组件（重要）：

Agent 是 Flume 的核心，也就是说 Flume 的最小单位就是 Agent。它有三个核心组件：Source、Channel、Sink。通过这些组件，event 可以从一个地方流向另一个地方。如图：

image | left

Source 是数据的收集端，负责把数据捕获到进行特殊的格式化，将数据封装成 event，然后推送到 channel 中。Flume 内置了很多格式：Avro, exec,Splling Directory Source,log4j, syslog, netcat 和 http post等。

image.png | left | 747x574

注：可以让应用程序同已有的Source直接打交道，如AvroSource，SyslogTcpSource。如果内置的Source无法满足需要， Flume还支持自定义Source。

Channel 是连接 Source 和 Sink 的中间通道，可以把它看做数据缓冲（数据队列），它可以将事件（event）暂存在内存中，也可以持久化到文件中，直到 Sink 处理完该事件。常用：MemoryChannel 和 FileChannel。

image.png | left | 747x353

Sink 从 Channel 中取出数据，可以把数据以向文件系统、数据库、 hadoop存数据，也可以是其他 Agent 的Source。在日志数据较少时，可以将数据存储在文件系统中，并且设定一定的时间间隔保存数据。

image.png | left | 747x586

Flume 数据流

1）Flume 的核心是把数据从数据源收集过来，再送到目的地。为了保证输送一定成功，在送到目的地之前，会先缓存数据，待数据真正到达目的地后，删除自己缓存的数据。
2） Flume 传输的数据的基本单位是 Event，如果是文本文件，通常是一行记录，这也是事务的基本单位。 Event 从 Source，流向 Channel，再到 Sink，本身为一个 byte 数组，并可携带 headers 信息。 Event 代表着一个数据流的最小完整单元，从外部数据源来，向外部的目的地去。

image.png | left | 747x424

值得注意的是，Flume提供了大量内置的Source、Channel和Sink类型。不同类型的Source,Channel和Sink可以自由组合。组合方式基于用户设置的配置文件，非常灵活。

比如：Channel可以把事件暂存在内存里，也可以持久化到本地硬盘上。Sink可以把日志写入HDFS, HBase，甚至是另外一个Source等等。Flume支持用户建立多级流，

也就是说，多个agent可以协同工作，并且支持Fan-in、Fan-out、Contextual Routing、Backup Routes，这也正是Flume强大之处。如下图所示：

image.png | left | 747x411

Flume 使用场景

分为三类：1:1 1:n n:1

Flume 使用场景！！

多个 Agent 顺序连接。

image | left

多个Agent 数据汇聚到一个 Agent 里面。

image | left

多级流：syslog， java， nginx、 tomcat等混合在一起的日志流开始流入一个 agent 后，可以agent中将混杂的日志流分开，然后给每种日志建立一个自己的传输通道。

image | left

Load Balance功能。下图，Agent1 是一个路由节点，负责将 Channel 暂存的 Event 均衡到对应的多个Sink组件上，而每个Sink组件分别连接到一个独立的Agent上。

image | left

Flume 架构的可靠性

Flume的可靠性
当节点出现故障时，日志能够被传送到其他节点上而不会丢失。Flume提供了三种级别的可靠性保障，从强到弱依次分别为：

1.End-to-End（收到数据agent首先将event写到磁盘上，当数据传送成功后，再删除；如果数据发送失败，可以重新发送。），2.Store on failure（这也是scribe采用的策略，当数据接收方crash时，将数据写到本地，待恢复后，继续发送），3.Besteffort（数据发送到接收方后，不会进行确认）。

Flume的可恢复性
还是靠Channel。推荐使用FileChannel，事件持久化在本地文件系统里(性能较差)

实际生产中，Flume 应用非常广泛，需要好好掌握。

杂记

1.netcat 不能跨节点（TCP，UDP）

2.使用 rpc 协议的 avro 可以实现跨节点取数据、

3.有时候需要配置时间戳：

image.png | left | 728x134

4.默认情况下会生成很多小文件，但是可以修改配置文件：
hdfs.rollSize 单位是字节
hdfs.rollcount=0
设置时间

5.几种例子都是 1对1的
第一种：netcat –> logger

# example.conf: A single-node Flume configuration
# Name the components on this agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1

# Describe/configure the source
a1.sources.r1.type = netcat
a1.sources.r1.bind = localhost
a1.sources.r1.port = 44444

# Describe the sink
a1.sinks.k1.type = logger

# Use a channel which buffers events in memory
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100

# Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

第二种：netcat –> hdfs

# example.conf: A single-node Flume configuration

# Name the components on this agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1

# Describe/configure the source
a1.sources.r1.type = netcat
a1.sources.r1.bind = localhost
a1.sources.r1.port = 44444

# Describe the sink
a1.sinks.k1.type = hdfs
# 指定路径
a1.sinks.k1.hdfs.path= hdfs://tsl/flume/%Y-%m-%d
# 开启本地时间戳
a1.sinks.k1.hdfs.useLocalTimeStamp = true

# Use a channel which buffers events in memory
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100

# Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

第三种：exec –> hdfs

# example.conf: A single-node Flume configuration

# Name the components on this agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1

# Describe/configure the source
a1.sources.r1.type = exec
a1.sources.r1.command = tail -f /root/flume.log

# Describe the sink
a1.sinks.k1.type = hdfs
# 指定路径
a1.sinks.k1.hdfs.path= hdfs://tsl/flume/exec/%Y-%m-%d
# 开启本地时间戳
a1.sinks.k1.hdfs.useLocalTimeStamp = true

# Use a channel which buffers events in memory
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100

# Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

遇到的问题以及解决方案

This blog is under a CC BY-NC-SA 3.0 Unported License
本文链接：http://blog.cuteximi.com/Flume-1-x/