one-知趣-第4页
one的头像-知趣
徽章-年度人气明星-知趣徽章-人气大使-知趣徽章-人气佳作-知趣8枚徽章安徽圈主
这家伙很懒,什么都没有写...
5.14 案例:使用Spark统计连续三周登录的用户数-知趣

5.14 案例:使用Spark统计连续三周登录的用户数

假设有如下一个用户登录日志表:+------+-------+-------------------+|log_id|user_id|           log_time|+------+-------+-------------------+|     1|   1000|2022-03-10 10:08:1...
2024年重庆甘肃安徽等省职业院校技能大赛_大数据应用开发样题解析-模块D:离线数据处理-任务一:离线数据清洗-知趣

2024年重庆甘肃安徽等省职业院校技能大赛_大数据应用开发样题解析-模块D:离线数据处理-任务一:离线数据清洗

环境说明Hive 的配置文件位于主节点/opt/module/hive-3.1.2/conf/Spark 任务在Yarn 上用Client 运行,方便观察日志;ClickHouse 的jdbc 连接端口8123,用户名/密码:default/123456命令行客户端...
Spark合并Hive ODS离线数据和HBase实时数据,并存入Hive DWD层-知趣

Spark合并Hive ODS离线数据和HBase实时数据,并存入Hive DWD层

任务描述抽取 ods 库中表 table4 最新分区的数据,并结合 HBase 中 table4 offline表中的数据合并抽取到 dwd 库中 fact table4 的分区表,分区字段为etl date 且值与 ods 库的相对应表该值相等...
在Spark中实现增量合并(upsert/merge实现)-知趣

在Spark中实现增量合并(upsert/merge实现)

通常会将大量数据抽取到Hadoop分布式文件系统(HDFS)中进行分析。通常情况下,我们需要用新的变化定期更新这些数据。很长一段时间以来,实现这一目标的最常见方法是使用Apache Hive增量地将新的...
2024年重庆甘肃安徽等省职业院校技能大赛_大数据应用开发样题解析-模块C:实时数据处理-任务二:实时指标计算-知趣

2024年重庆甘肃安徽等省职业院校技能大赛_大数据应用开发样题解析-模块C:实时数据处理-任务二:实时指标计算

环境说明Flink 任务在Yarn 上用per job 模式(即Job 分离模式,不采用Session 模式),方便Yarn 回收资源;建议使用gson 解析json 数据。任务描述编写Java 工程代码,使用Flink 消费Kafka 中dwd...
2024年福建省大数据应用开发赛项样题解析-模块C:实时数据处理-任务二:实时指标计算-知趣

2024年福建省大数据应用开发赛项样题解析-模块C:实时数据处理-任务二:实时指标计算

任务要求:编写Scala 工程代码,使用Flink 消费Kafka 中dwd 层的Topic数据,表结构与离线数据表结构相同。本任务共有两个子任务组成。点击正文链接,可快速跳转到相应子任务实现部分:查看子任务...
2024年重庆甘肃安徽等省职业院校技能大赛_大数据应用开发样题解析-模块C:实时数据处理-任务一:实时数据清洗-知趣

2024年重庆甘肃安徽等省职业院校技能大赛_大数据应用开发样题解析-模块C:实时数据处理-任务一:实时数据清洗

环境说明Flink 任务在Yarn 上用per job 模式(即Job 分离模式,不采用Session 模式),方便Yarn 回收资源;建议使用gson 解析json 数据。任务描述编写Java 工程代码,使用Flink 消费Kafka 中Top...
2.1 使用IntelliJ IDEA+Maven开发Flink项目-知趣

2.1 使用IntelliJ IDEA+Maven开发Flink项目

通过结合使用IntelliJ IDEA集成开发工具和Maven项目构建工具,我们可以方便快速地开发Flink项目。在IntelliJ IDEA中创建Flink项目第一步:启动IntelliJ IDEA,创建一个新的项目,如下图所示:第...
4.2 Flume集成Kafka-知趣

4.2 Flume集成Kafka

在生产环境下,通常使用Flume采集日志数据,并将采集到的日志数据发送到Kafka上。这里Flume充当了Kafka生产者角色。而对于Kafka来说,关键是如何接收来自Flume的数据。我们需要在Kafka中创建一...
4.1 安装Apache Flume-知趣

4.1 安装Apache Flume

Flume是一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受...
2024年重庆甘肃安徽等省职业院校技能大赛_大数据应用开发样题解析-模块B:数据采集-任务二:实时数据采集-知趣

2024年重庆甘肃安徽等省职业院校技能大赛_大数据应用开发样题解析-模块B:数据采集-任务二:实时数据采集

本任务共有两个子任务组成:实时数据采集子任务1实时数据采集子任务2子任务1子任务1描述1、在主节点使用Flume 采集实时数据生成器25001 端口的socket 数据(实时数据生成器脚本为主节点/data_lo...
2024年重庆甘肃安徽等省职业院校技能大赛_大数据应用开发样题解析-模块B:数据采集-任务一:离线数据采集-知趣

2024年重庆甘肃安徽等省职业院校技能大赛_大数据应用开发样题解析-模块B:数据采集-任务一:离线数据采集

任务描述编写Scala 工程代码, 将MySQL 的ds_db01 库中表order_master、order_detail、coupon_info、coupon_use、product_browse、product_info、customer_inf 、customer_login_log 、order_ca...
Scala语言专题(目录)-知趣

Scala语言专题(目录)

Ch01 Scala开发基础 1.1 Scala简介 1.2 安装Scala 1.3 使用IntelliJ IDEA集成开发环境 1.4 使用IDEA开发Scala应用程序 Ch02 Scala基础语法 2.1 变量 2.2 数据类型 2.3 运算符 2.4 数组 Ch03 程...
1.1 Scala简介-知趣

1.1 Scala简介

Scala是一种非常适合开发大数据应用程序的语言,是使用Apache Spark的首选语言。使用Scala语言来学习Spark,具有以下优点:首先,开发人员可以通过使用Scala实现显著的生产力提升。其次,它帮助...
1.2 安装Scala-知趣

1.2 安装Scala

Scala可以安装在Windows和Linux操作系统下。下面我们分别介绍在这两个操作系统下安装Scala的步骤。 (注:在安装Scala前,请确保已经安装好了JDK 8,并配置好了环境变量。)本节包括如下内容:...
1.3 使用IntelliJ IDEA集成开发环境-知趣

1.3 使用IntelliJ IDEA集成开发环境

在本节中,我们将使用流行的IntelliJ IDEA来展示如何设置编写Scala代码的开发环境。本节包括如下内容:下载IntelliJ IDEA安装IntelliJ IDEA安装Scala插件注意:确保已经安装好了JDK 8+。 下载I...