ELK Stack Filebeat分布式日志收集

Filebeat 是 Elastic Stack 中的轻量级日志收集器，专门用于从各种来源（如文件、网络数据等）收集日志并将其发送到目标（如 Elasticsearch 或 Logstash）。它的设计目标是高效、可靠和易于部署。以下是 Filebeat 的工作原理和关键组件：

工作原理

输入（Input）:
- Filebeat 配置文件 (filebeat.yml) 中指定了数据源（例如日志文件路径）。
- Filebeat 通过输入模块读取这些数据源。
处理（Processing）:
- 读取到的数据可以通过处理器（Processor）进行预处理。处理器可以用于添加、删除或修改日志字段，进行过滤等操作。
- 常见的处理器包括 add_fields、drop_fields、decode_json_fields 等。
输出（Output）:
- 处理后的日志数据通过输出模块发送到指定的目标，如 Elasticsearch、Logstash、Kafka 或其他存储系统。
- 输出模块负责将数据可靠地传输到目标位置，并处理重试逻辑以确保数据不丢失。

关键组件

Prospector:
- 这是 Filebeat 的输入模块，负责查找和读取指定的数据源。
- 每个输入模块（如日志文件、TCP/UDP 输入等）都有一个对应的 Prospector。
Harvester:
- Harvester 是 Prospector 的子组件，负责实际读取日志文件的内容。
- 每个日志文件通常会有一个独立的 Harvester 实例。
Registrar:
- Registrar 负责记录每个 Harvester 的读取位置（即文件偏移量）。
- 这些信息会定期写入磁盘，以便在 Filebeat 重启或崩溃后可以继续从上次的位置读取。
Spooler:
- Spooler 收集来自多个 Harvester 的日志条目，并将它们批量发送到输出模块。
- 通过批量处理，可以提高数据传输效率和吞吐量。
Output:
- 输出模块负责将处理后的日志数据发送到目标系统。
- 支持多种输出目标，如 Elasticsearch、Logstash、Kafka、Redis 等。

数据流示意图

+-------------------+
|    Input (log)    |
+--------+----------+
         |
         v
+--------+----------+
|     Prospector    |  (查找和读取数据源)
+--------+----------+
         |
         v
+--------+----------+
|     Harvester     |  (读取日志文件内容)
+--------+----------+
         |
         v
+--------+----------+
|      Spooler      |  (收集和批量处理日志条目)
+--------+----------+
         |
         v
+--------+----------+
|      Output       |  (发送到目标系统，如 Elasticsearch)
+-------------------+

配置示例

以下是一个简单的 Filebeat 配置示例：

filebeat.inputs:
  - type: log
    enabled: true
    paths:
      - /var/log/myapp/*.log

processors:
  - add_host_metadata: ~
  - add_cloud_metadata: ~

output.elasticsearch:
  hosts: ['http://localhost:9200']
  username: 'elastic'
  password: 'changeme'

setup.kibana:
  host: 'http://localhost:5601'

总结

Filebeat 通过其轻量级、高效的设计，能够在分布式环境中高效地收集和传输日志数据。它的核心组件（如 Prospector、Harvester、Spooler 和 Output）协同工作，确保日志数据可靠地从源头传输到目标系统。

希望这些信息对你有帮助！如果你有其他问题，欢迎继续提问。

工作原理​

关键组件​

数据流示意图​

配置示例​

总结​

工作原理

关键组件

数据流示意图

配置示例

总结