排序
5.14 案例:使用Spark统计连续三周登录的用户数
假设有如下一个用户登录日志表:+------+-------+-------------------+|log_id|user_id| log_time|+------+-------+-------------------+| 1| 1000|2022-03-10 10:08:1...
Spark合并Hive ODS离线数据和HBase实时数据,并存入Hive DWD层
任务描述抽取 ods 库中表 table4 最新分区的数据,并结合 HBase 中 table4 offline表中的数据合并抽取到 dwd 库中 fact table4 的分区表,分区字段为etl date 且值与 ods 库的相对应表该值相等...
在Spark中实现增量合并(upsert/merge实现)
通常会将大量数据抽取到Hadoop分布式文件系统(HDFS)中进行分析。通常情况下,我们需要用新的变化定期更新这些数据。很长一段时间以来,实现这一目标的最常见方法是使用Apache Hive增量地将新的...