排序
2024年重庆甘肃安徽等省职业院校技能大赛_大数据应用开发样题解析-模块F:综合分析
任务一:请描述HBase 的rowkey 设计原则。任务二:ClickHouse 有哪些表引擎?列举四种并简要描述。任务三:对于分组排序的理解。任务四:Kafka 中的数据如何保证不丢失?任务五:Spark 的数据本...
8.3 使用正则表达式处理字符串
字符串中正则表达式模式匹配通过在String上调用.r方法来创建一个scala.util.matching.Regex对象,然后在findFirstIn中使用该模式来查找一个匹配,在findAllIn中使用该模式来查找所有的匹配。 ...
1-8.Hudi安装配置
实验环境实验准备实验内容一、下载所需安装包二、安装配置Maven运行环境三、使用maven对Hudi进行构建四、安装配置Spark运行环境五、启动spark-shell运行案例 实验环境Ubuntu 18.04Spark 3.2....
2.1 变量
Scala有两种类型变量:可变的和不可变的。不可变意味着变量的值一旦声明就不能更改。数据不变性帮助在管理数据时实现并发控制。强烈建议不要使用可变变量。Scala作为语言中的第一类公民,高度鼓...
在Spark中实现增量合并(upsert/merge实现)
通常会将大量数据抽取到Hadoop分布式文件系统(HDFS)中进行分析。通常情况下,我们需要用新的变化定期更新这些数据。很长一段时间以来,实现这一目标的最常见方法是使用Apache Hive增量地将新的...
7.2 单例对象和伴生对象
单例对象在面向对象编程中一个常见的设计模式是定义一个只能被实例化一次的类。一个只能被实例化一次的类叫做“单例(singleton)”。Scala不提供任何静态修饰符,这与构建纯面向对象语言的设计...
7.6 模式匹配
在前面的章节已经讲了Scala中的简单模式匹配。模式匹配是一个表达式,因此它会导致一个值,该值可能被分配或返回。例如:44 match { case 44 => true // 如果匹配了44,则结果为true...
2024年福建省大数据应用开发赛项样题解析-模块C:实时数据处理-任务二:实时指标计算
任务要求:编写Scala 工程代码,使用Flink 消费Kafka 中dwd 层的Topic数据,表结构与离线数据表结构相同。本任务共有两个子任务组成。点击正文链接,可快速跳转到相应子任务实现部分:查看子任务...
5.14 案例:使用Spark统计连续三周登录的用户数
假设有如下一个用户登录日志表:+------+-------+-------------------+|log_id|user_id| log_time|+------+-------+-------------------+| 1| 1000|2022-03-10 10:08:1...
2024年重庆甘肃安徽等省职业院校技能大赛_大数据应用开发样题解析-模块C:实时数据处理-任务二:实时指标计算
环境说明Flink 任务在Yarn 上用per job 模式(即Job 分离模式,不采用Session 模式),方便Yarn 回收资源;建议使用gson 解析json 数据。任务描述编写Java 工程代码,使用Flink 消费Kafka 中dwd...
2024年重庆甘肃安徽等省职业院校技能大赛_大数据应用开发样题解析-模块D:离线数据处理-任务二:离线指标计算
环境说明Hive 的配置文件位于主节点/opt/module/hive-3.1.2/conf/Spark 任务在Yarn 上用Client 运行,方便观察日志;ClickHouse 的jdbc 连接端口8123,用户名/密码:default/123456命令行客户端...
1-9.ZooKeeper分布式安装配置
实验环境实验准备实验内容一、下载所需安装包二、安装配置ZooKeeper运行环境三、 分发内容到slave节点 实验环境Ubuntu 18.04Oracle JDK 1.8Hadoop 3.2.4ZooKeeper 3.6.3实验准备点击开始实验按...
3-2.大数据国赛第2套任务C-子任务二推荐系统
任务要求11.1实现思路1.2连接Spark1.3实现方式一1.4实现方式二 任务要求1根据子任务一的结果,计算出与用户id为6708的用户所购买相同商品种类最多的前10位用户id(只考虑他俩购买过多少种相...
5-1.大数据国赛数据可视化-用柱状图展示各省份消费额的中位数
实验环境实验准备实验内容一、下载安装vue cli二、创建vue.js项目三、编辑App.vue添加MyCharts组件四、写出MyCharts数据可视化组件模板代码五、在模板里添加处理数据的逻辑代码 实验环境Ubun...
5.3 高阶函数
什么是高阶函数?在scala中,函数可以作为参数来传递。下面的代码定义一个接受函数作为参数的函数:// 函数定义def operation(func:(Int, Int) => Int) = { val result = func(4,4) pri...









