one-知趣-第4页

16.2W+3.8W+1

one

9枚徽章河南圈主

这家伙很懒，什么都没有写...

发布226

5.14 案例：使用Spark统计连续三周登录的用户数

假设有如下一个用户登录日志表：+------+-------+-------------------+|log_id|user_id| log_time|+------+-------+-------------------+| 1| 1000|2022-03-10 10:08:1...

2年前

0444103

2024年重庆甘肃安徽等省职业院校技能大赛_大数据应用开发样题解析-模块D：离线数据处理-任务一：离线数据清洗

环境说明Hive 的配置文件位于主节点/opt/module/hive-3.1.2/conf/Spark 任务在Yarn 上用Client 运行，方便观察日志；ClickHouse 的jdbc 连接端口8123，用户名/密码：default/123456命令行客户端...

大数据真题解析大数据真题解析专题 # 大数据 # bigdata # scala

2年前

0590105

Spark合并Hive ODS离线数据和HBase实时数据，并存入Hive DWD层

任务描述抽取 ods 库中表 table4 最新分区的数据，并结合 HBase 中 table4 offline表中的数据合并抽取到 dwd 库中 fact table4 的分区表，分区字段为etl date 且值与 ods 库的相对应表该值相等...

大数据 # 大数据 # bigdata # 教程

2年前

0936177

在Spark中实现增量合并(upsert/merge实现)

通常会将大量数据抽取到Hadoop分布式文件系统(HDFS)中进行分析。通常情况下，我们需要用新的变化定期更新这些数据。很长一段时间以来，实现这一目标的最常见方法是使用Apache Hive增量地将新的...

大数据 # 大数据 # bigdata # 教程

2年前

0468251

2024年重庆甘肃安徽等省职业院校技能大赛_大数据应用开发样题解析-模块C：实时数据处理-任务二：实时指标计算

环境说明Flink 任务在Yarn 上用per job 模式（即Job 分离模式，不采用Session 模式），方便Yarn 回收资源；建议使用gson 解析json 数据。任务描述编写Java 工程代码，使用Flink 消费Kafka 中dwd...

大数据真题解析大数据真题解析专题 # 大数据 # bigdata # scala

2年前

0447272

2024年福建省大数据应用开发赛项样题解析-模块C：实时数据处理-任务二：实时指标计算

任务要求：编写Scala 工程代码，使用Flink 消费Kafka 中dwd 层的Topic数据,表结构与离线数据表结构相同。本任务共有两个子任务组成。点击正文链接，可快速跳转到相应子任务实现部分：查看子任务...

大数据真题解析大数据真题解析专题 # 大数据 # bigdata # scala

2年前

0453266

2024年重庆甘肃安徽等省职业院校技能大赛_大数据应用开发样题解析-模块C：实时数据处理-任务一：实时数据清洗

环境说明Flink 任务在Yarn 上用per job 模式（即Job 分离模式，不采用Session 模式），方便Yarn 回收资源；建议使用gson 解析json 数据。任务描述编写Java 工程代码，使用Flink 消费Kafka 中Top...

大数据真题解析大数据真题解析专题 # 大数据 # bigdata # scala

2年前

0401245

2.1 使用IntelliJ IDEA+Maven开发Flink项目

通过结合使用IntelliJ IDEA集成开发工具和Maven项目构建工具，我们可以方便快速地开发Flink项目。在IntelliJ IDEA中创建Flink项目第一步：启动IntelliJ IDEA，创建一个新的项目，如下图所示：第...

Flink # 大数据 # bigdata # 教程

2年前

0754171

4.2 Flume集成Kafka

在生产环境下，通常使用Flume采集日志数据，并将采集到的日志数据发送到Kafka上。这里Flume充当了Kafka生产者角色。而对于Kafka来说，关键是如何接收来自Flume的数据。我们需要在Kafka中创建一...

kafka # 大数据 # bigdata # 教程

2年前

0834293

4.1 安装Apache Flume

Flume是一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受...

kafka # 大数据 # bigdata # 教程

2年前

0644159

2024年重庆甘肃安徽等省职业院校技能大赛_大数据应用开发样题解析-模块B：数据采集-任务二：实时数据采集

本任务共有两个子任务组成：实时数据采集子任务1实时数据采集子任务2子任务1子任务1描述1、在主节点使用Flume 采集实时数据生成器25001 端口的socket 数据（实时数据生成器脚本为主节点/data_lo...

大数据真题解析大数据真题解析专题 # 大数据 # bigdata # scala

2年前

0926134

2024年重庆甘肃安徽等省职业院校技能大赛_大数据应用开发样题解析-模块B：数据采集-任务一：离线数据采集

任务描述编写Scala 工程代码，将MySQL 的ds_db01 库中表order_master、order_detail、coupon_info、coupon_use、product_browse、product_info、customer_inf 、customer_login_log 、order_ca...

大数据真题解析大数据真题解析专题 # 大数据 # bigdata # scala

2年前

0748211

Scala语言专题（目录）

Ch01 Scala开发基础 1.1 Scala简介 1.2 安装Scala 1.3 使用IntelliJ IDEA集成开发环境 1.4 使用IDEA开发Scala应用程序 Ch02 Scala基础语法 2.1 变量 2.2 数据类型 2.3 运算符 2.4 数组 Ch03 程...

Scala语言 Scala # 大数据 # bigdata # 教程

2年前

0755179

1.1 Scala简介

Scala是一种非常适合开发大数据应用程序的语言，是使用Apache Spark的首选语言。使用Scala语言来学习Spark，具有以下优点：首先，开发人员可以通过使用Scala实现显著的生产力提升。其次，它帮助...

Scala语言 Scala # 大数据 # bigdata # 教程

2年前

0857220

1.2 安装Scala

Scala可以安装在Windows和Linux操作系统下。下面我们分别介绍在这两个操作系统下安装Scala的步骤。（注：在安装Scala前，请确保已经安装好了JDK 8，并配置好了环境变量。）本节包括如下内容：...

Scala语言 Scala # 大数据 # bigdata # 教程

2年前

0819196

1.3 使用IntelliJ IDEA集成开发环境

在本节中，我们将使用流行的IntelliJ IDEA来展示如何设置编写Scala代码的开发环境。本节包括如下内容：下载IntelliJ IDEA安装IntelliJ IDEA安装Scala插件注意：确保已经安装好了JDK 8+。下载I...

Scala语言 Scala # 大数据 # bigdata # 教程

2年前

0456230

上一页 1 2 345 6…15 下一页跳转