在Spark,两个DataFrame做join操作后,会出现重复的列。例如:
DatasetmoviesWithRating = moviesDF .join(averageRatingMoviesDF, moviesDF.col("movieId").equalTo(averageRatingMoviesDF.col("movieId")));
其schema如下:
//moviesWithRating.printSchema(); /** * root * |-- _id: struct (nullable = true) * | |-- oid: string (nullable = true) * |-- actors: string (nullable = true) * |-- description: string (nullable = true) * |-- directors: string (nullable = true) * |-- genres: string (nullable = true) * |-- issue: string (nullable = true) * |-- language: string (nullable = true) * |-- movieId: integer (nullable = true) * |-- shoot: string (nullable = true) * |-- timeLong: string (nullable = true) * |-- title: string (nullable = true) * |-- movieId: integer (nullable = true) * |-- avgRating: double (nullable = true) */
我们在继续操作这个DataFrame时,可能就会报错,如下:org.apache.spark.sql.AnalysisException: Reference ‘movieId’ is ambiguous
解决方案有两种方法可以用来移除重复的列
- 方法一:join表达式使用字符串数组(用于join的列)
Seq
joinColumns = JavaConversions.asScalaBuffer(Arrays.asList("movieId")).toList(); Dataset moviesWithRating = moviesDF.join( averageRatingMoviesDF, joinColumns, "inner");
这里DataFrame moviesDF和averageRatingMoviesDF使用了movieId和movieId两列来做join,返回的结果会对这两列去重
如果是scala,解决方案如下:
val moviesWithRating = moviesDf.join(averageRatingMoviesDF, Seq("movieId"))
- 方法二:使用select返回指定的列
Dataset
moviesWithRating = moviesDF .join(averageRatingMoviesDF, moviesDF.col("movieId").equalTo(averageRatingMoviesDF.col("movieId"))) .select( moviesDF.col("movieId"), col("actors"), col("description"), col("directors"), col("genres"), col("issue"), col("language"), col("shoot"), col("timeLong"), col("title"), col("avgRating") );
说明:
如果列较少, 推荐使用第二种.
如果列较多, 推荐使用第一种.
- 方法二:使用select返回指定的列
猜你喜欢
- 16天前(零碳中国·绿色投资蓝皮书)中国"零碳"差旅之路暨"绿色低碳酒店"标准研究项目成果发布会召开
- 16天前(瑞士大酒店-自助餐怎么样)瑞意心旅,以食为先 瑞士酒店开启全新"瑞士早餐计划"
- 16天前(甘州区文化旅游局)2025甘津文旅资源对接推介会在兰州举办
- 16天前(东北地区全域旅游)东北三省一区宣传贯彻研学旅游行业标准
- 16天前(“清透会呼吸”轻松拿捏春日出游氛围感)“清透会呼吸”轻松拿捏春日出游氛围感
- 16天前(札幌小樽市)2024年暑期飞往北海道避暑吧!札幌小樽city walk路线推荐
- 16天前(纳米比亚旅游报价)纳米比亚旅游局2024年中国推介会圆满落幕
- 16天前(辽宁新增6个国家4a级旅游景区有哪些)辽宁新增6个国家4A级旅游景区
- 16天前(“百场黄梅唱响百家景区”示范演出活动在黄山风景区举行)“百场黄梅唱响百家景区”示范演出活动在黄山风景区举行
- 16天前(新西兰旅游局×时差岛:黄觉的“长白云之乡”奇遇)新西兰旅游局×时差岛:黄觉的“长白云之乡”奇遇
网友评论
- 搜索
- 最新文章
- (2020广州车展哈弗)你的猛龙 独一无二 哈弗猛龙广州车展闪耀登场
- (哈弗新能源suv2019款)智能科技颠覆出行体验 哈弗重塑新能源越野SUV价值认知
- (2021款全新哈弗h5自动四驱报价)新哈弗H5再赴保障之旅,无惧冰雪护航哈弗全民电四驱挑战赛
- (海南航空现况怎样)用一场直播找到市场扩张新渠道,海南航空做对了什么?
- (visa jcb 日本)优惠面面俱到 JCB信用卡邀您畅玩日本冰雪季
- (第三届“堡里有年味·回村过大年”民俗花灯会活动)第三届“堡里有年味·回村过大年”民俗花灯会活动
- (展示非遗魅力 长安启源助力铜梁龙舞出征)展示非遗魅力 长安启源助力铜梁龙舞出征
- (阿斯塔纳航空公司)阿斯塔纳航空机队飞机数量增至50架
- (北京香港航班动态查询)香港快运航空北京大兴新航线今日首航
- (我在港航“呵护”飞机 每一次安全着陆就是最好的荣誉)我在港航“呵护”飞机 每一次安全着陆就是最好的荣誉
- 热门文章