每天科技网

Flink简介和快速入门

每天科技网 2

1、 Flink 1.2.1事件驱动的简介1.2.2流和批处理的世界视图1.2.3分层API了解Flink的重要特性。快速入门

2.1添加依赖项

2.2批处理字数

2.3流字数

I关于Flink

1.1 Flink项目的概念是:“Apache Flink是一个开源流处理框架,用于分布式、高性能、随时可用和精确的流处理应用程序”。Apache Flink是一个框架和分布式处理引擎,用于无界和有界数据流的状态计算。Flink设计用于在所有常见群集环境中运行,并以内存执行速度和任何小执行计算。2 Flink的重要功能。1.2.1事件驱动应用程序是一种具有状态的应用程序。它从一个或多个事件流中提取数据,并根据传入的事件触发计算、状态更新或其他外操作。一个典型的例子是,由Kafka表示的几乎所有消息队列都是事件驱动的应用程序。2.2流和批处理的世界视图以有界、持久和为特征。它非常适合需要访问全套记录的计算工作。它通常用于脱机统计。流处理的特点是无界性和实时性。它不是对整个数据集执行操作,而是对通过系统传输的每个数据项执行操作。它通常用于实时统计。在Spark的世界观中,一切都是由批次组成的。离线数据是一个批量,而实时数据是由无限个小批量组成的。在弗林克的世界观中,一切都是由溪流组成的。离线数据是有界流,实时数据是无界流,即所谓的有界流和无界流无界数据流:无界数据流有起点,但没有终点。它们不会在生成时终止并提供数据。必须连续处理无界流,即必须在采集后立即处理事件。对于无界数据流,我们不能等待所有数据到达,因为输入是无界的,并且不会在任何时间点完成。处理无界数据通常需要按特定顺序(例如事件发生的顺序)获取事件,以便推断结果的完整性有界数据流:有界数据流有明确定义的开始和结束。可以通过在执行任何计算之前获取所有数据来处理它。处理有界流不需要获取它,因为有界数据集总是可以排序的。有界流的处理也称为批处理

这种面向流的体系结构的最优点是它具有非常低的延迟

<1.2.3分层API

最低级别的抽象只提供有状态流,它将通过进程函数嵌入到datastream API中。底层流程功能与datastream API集成,因此它可以在底层抽象一些特定操作,这允许用户自由处理一个或多个数据流中的事件,并使用一致的容错状态多数应用程序不需要上述底层抽象,而是为核心API编程的,例如datastream API(有界或无界流数据)和dataset API(有界数据集)。这些API为数据处理提供了通用的构建块,如用户定义的转换、连接、聚合、窗口操作等。dataset API为有界数据集(如循环和迭代)提供了额外的支持。这些API处理的数据类型由它们各自的编程语言以类的形式表示。快速入门

2.1添加依赖项

2.2批字计数

2.3流字计数

服务器启动套接字

松下相机可以调画幅吗怎么调

平板电脑怎么开声音

gta5970怎么设置显卡

钓鱼不放手有灾祸吗为什么

恒温游泳池怎么加热

什么枣大如乒乓球

有一个星座叫双子什么

快手怎么设置打开朋友在看

非专业人怎么seo网站

标签:api 流处理 数据流 apacheflink dataset