Spark 之解析json的复杂和嵌套数据结构

本文主要使用以下几种方法：

1，get_json_object()：从一个json 字符串中根据指定的json 路径抽取一个json 对象

2，from_json()：从一个json 字符串中按照指定的schema格式抽取出来作为DataFrame的列

3，to_json()：将获取的数据转化为json格式

4，explode()：炸裂成多行

5，selectExpr()：将列转化为一个JSON对象的另一种方式

文件名是 mystudent.txt 具体内容如下，只有一条数据

1|{"dept":{"describe":"主要负责教学","name":"学术部"},"email":"zhangsan@edu.cn","id":79,"name":"zhangsan","stus":[{"grade":"三年级","id":12,"name":"xuesheng1","school":{"address":"南京","leader":"王总","name":"南京大学"}},{"grade":"三年级","id":3,"name":"xuesheng2","school":{"address":"南京","leader":"王总","name":"南京大学"}},{"grade":"三年级","id":1214,"name":"xuesheng3","school":{"address":"南京","leader":"王总","name":"南京大学"}}],"tel":"1585050XXXX"}
复制

大概是这样的结构：

第一步：导入文件并分割成二元组转换成两列

 val optionRDD: RDD[String] = sc.textFile("in/mystudent.txt")
optionRDD.foreach(println)
 
//分割，注意  |  用的是单引号
val option1: RDD[(String, String)] = optionRDD.map(x => {
      val arr = x.split('|');
      (arr(0), arr(1))
    })
option1.foreach(println)
 
//转化成两列
val jsonStrDF: DataFrame = option1.toDF("aid", "value")
        jsonStrDF.printSchema()
        jsonStrDF.show(false)复制

第二步：按照几个大类先拆分

  val jsonObj: DataFrame = jsonStrDF.select(
      $"aid"
      , get_json_object($"value", "$.dept").as("dept")
      , get_json_object($"value", "$.email").as("email")
      , get_json_object($"value", "$.id").as("tid")
      , get_json_object($"value", "$.name").as("tname")
      , get_json_object($"value", "$.stus").as("stus")
      , get_json_object($"value", "$.tel").as("tel")
    )
    println("--------------------------1--------------------------")
    jsonObj.printSchema()
    jsonObj.show(false)复制

第三步：把dept这个部分再分

 val jsonObj2: DataFrame = jsonObj.select($"aid", $"email"
      , $"tid", $"tname"
      , get_json_object($"dept", "$.describe").as("describe")
      , get_json_object($"dept", "$.name").as("dname")
      , $"stus", $"tel"
    )
    println("--------------------------2--------------------------")
        jsonObj2.printSchema()
        jsonObj2.show(false)复制

第四步：把stus这部分合并成数组

 val fileds: List[StructField] =
      StructField("grade", StringType) ::
        StructField("id", StringType) ::
        StructField("name", StringType) ::
        StructField("school", StringType) :: Nil
val jsonObj3: DataFrame = jsonObj2.select(
      $"aid", $"describe", $"dname", $"email", $"tid", $"tname"
      , from_json($"stus", ArrayType(
        StructType(
          fileds
        )
      )
      ).as("events")
    )
    println("--------------------------3--------------------------")
    jsonObj3.printSchema()
    jsonObj3.show(false)复制

第五步：explode炸裂stus 部分，分成三部分；并新增列，删除原数组数据

 //炸裂
val jsonObj4: DataFrame = jsonObj3.withColumn("events", explode($"events"))
    println("--------------------------4--------------------------")
    jsonObj4.printSchema()
    jsonObj4.show(false)
 
//新增列，删除原数据
val jsonObj5: DataFrame = jsonObj4.withColumn("grade", $"events.grade")
      .withColumn("id", $"events.id")
      .withColumn("name", $"events.name")
      .withColumn("school", $"events.school")
      .drop("events")
    println("--------------------------5--------------------------")
    jsonObj5.printSchema()
    jsonObj5.show(false)复制

第六步：分开school部分，并合并全表

 val jsonObj6: DataFrame = jsonObj5.select($"aid", $"describe"
      , $"dname", $"email",$"tid",$"tname",$"grade",$"id",$"name",
      get_json_object($"school","$.address").as("address")
      ,get_json_object($"school","$.leader").as("leader")
    ,get_json_object($"school","$.name").as("schoolname"))
    println("--------------------------6--------------------------")
    jsonObj6.printSchema()
    jsonObj6.show(false)复制

总结，全文代码如下：

 import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.sql.{DataFrame, SparkSession}
 
object JsonMyStu {
  def main(args: Array[String]): Unit = {
    val conf: SparkConf = new SparkConf().setAppName("jsonstu3opdemo").setMaster("local[*]")
    val spark: SparkSession = SparkSession.builder().config(conf).getOrCreate()
    val sc: SparkContext = spark.sparkContext
 
    import spark.implicits._
    import org.apache.spark.sql.functions._
    import org.apache.spark.sql.types._
 
    val optionRDD: RDD[String] = sc.textFile("in/mystudent.txt")
    optionRDD.foreach(println)
 
 
//按照 | 分割成两列
    val option1: RDD[(String, String)] = optionRDD.map(x => {
      val arr = x.split('|');
      (arr(0), arr(1))
    })
    option1.foreach(println)
 
    val jsonStrDF: DataFrame = option1.toDF("aid", "value")
        jsonStrDF.printSchema()
        jsonStrDF.show(false)
 
    val jsonObj: DataFrame = jsonStrDF.select(
      $"aid"
      , get_json_object($"value", "$.dept").as("dept")
      , get_json_object($"value", "$.email").as("email")
      , get_json_object($"value", "$.id").as("tid")
      , get_json_object($"value", "$.name").as("tname")
      , get_json_object($"value", "$.stus").as("stus")
      , get_json_object($"value", "$.tel").as("tel")
    )
    println("--------------------------1--------------------------")
    jsonObj.printSchema()
    jsonObj.show(false)
 
    val jsonObj2: DataFrame = jsonObj.select($"aid", $"email"
      , $"tid", $"tname"
      , get_json_object($"dept", "$.describe").as("describe")
      , get_json_object($"dept", "$.name").as("dname")
      , $"stus", $"tel"
    )
    println("--------------------------2--------------------------")
        jsonObj2.printSchema()
        jsonObj2.show(false)
 
    val fileds: List[StructField] =
      StructField("grade", StringType) ::
        StructField("id", StringType) ::
        StructField("name", StringType) ::
        StructField("school", StringType) :: Nil
    val jsonObj3: DataFrame = jsonObj2.select(
      $"aid", $"describe", $"dname", $"email", $"tid", $"tname"
      , from_json($"stus", ArrayType(
        StructType(
          fileds
        )
      )
      ).as("events")
    )
    println("--------------------------3--------------------------")
    jsonObj3.printSchema()
    jsonObj3.show(false)
 
    val jsonObj4: DataFrame = jsonObj3.withColumn("events", explode($"events"))
    println("--------------------------4--------------------------")
    jsonObj4.printSchema()
    jsonObj4.show(false)
 
    val jsonObj5: DataFrame = jsonObj4.withColumn("grade", $"events.grade")
      .withColumn("id", $"events.id")
      .withColumn("name", $"events.name")
      .withColumn("school", $"events.school")
      .drop("events")
    println("--------------------------5--------------------------")
    jsonObj5.printSchema()
    jsonObj5.show(false)
 
    val jsonObj6: DataFrame = jsonObj5.select($"aid", $"describe"
      , $"dname", $"email",$"tid",$"tname",$"grade",$"id",$"name",
      get_json_object($"school","$.address").as("address")
      ,get_json_object($"school","$.leader").as("leader")
    ,get_json_object($"school","$.name").as("schoolname"))
    println("--------------------------6--------------------------")
    jsonObj6.printSchema()
    jsonObj6.show(false)
 
  }
}复制

拓展：

 //如果分割符是  ，  则用以下方法，indexOf返回第一个此元素的下标值
    /*val optinRDD: RDD[String] = sc.textFile("in/mystudent.txt")
    optinRDD.foreach(println)
    val frame: RDD[(String, String)] = optinRDD.map(
      x => {
        //返回第一个，所在的位置
        val i: Int = x.indexOf(",")//1
        
        //开始截取
        //(0,i)--->(0,1)
        //(i+1) 2 从下标元素开始到末尾
        val tuple: (String, String) = (x.substring(0, i), x.substring(i + 1))
        tuple
      }
    )*/复制

Spark 之解析json的复杂和嵌套数据结构

Postman导出JSON文件轻松转换为HTML或Markdown

python requests编写 api接收json

前端-javaScript:jquery补充

java中Object和json相互转换的方式

Flutter Dart Macro 宏简化 JSON 序列化

中国地区 code.json文件

JSONObject 使用对比 hutool、alibaba

PG数据库的Jsonb全文检索查询

【开发工具】IntelliJ IDEA插件推荐：Json Helper——让JSON处理更高效

JSON 的常见格式总结

前端哥

运行npm error code ENOENTnpm error syscall opennpm error path C:\Users\ultra\Desktop\Vue-Project\pac

前端提高篇（102）：jQuery高级方法callbacks、deferred

解决npm install 报错 “npm err code 1“

【常见错误】npm ERR! code CERT_HAS_EXPIRED & errno CERT_HAS_EXPIRED

vue前端页面弹出红色报错遮罩层 Uncaught runtime errors:at handleError (webpack-internal:///./node_modules/webpack

npm ERR! code CERT_HAS_EXPIRED npm ERR! errno CERT_HAS_EXPIRED npm ERR! request to https://registry.

JQuery中的load()、$

《WEB前端框架开发技术》HTML5响应式旅游景区网站——榆林子州HTML CSS JavaScript (1)

基于Java SpringBoot Vue HTML5药店管理系统(源码 LW 调试文档讲解等)/药店管理软件/药店进销存系统/药店库存管理系统/药店销售系统/药品管理系统/药店收银系统

基于Java SpringBoot Vue HTML5宠物健康顾问系统(源码 LW 调试文档讲解等)/宠物健康/顾问系统/宠物护理/宠物医疗/宠物保健/宠物咨询/宠物医生/宠物健康管理/宠物健康服务

1
【Echarts系列】—— 实现电池图、3D立体圆形柱状图

2024-03-03 11:03:011001

2
CSS常用属性（文本属性）

2024-11-04 09:11:111000

3
TypeScript 中的 Number 类型，Number 类型的特性、常见操作和注意事项

2024-09-30 23:09:061000

4
CSS写代码使页面划分为左右两个区域

2024-09-09 00:09:071000

5
vue使用datav echarts

2024-09-06 00:09:381000

6
使用TweenMax.js和CSS3创建冰球运动员动画效果教程

2024-09-04 23:09:411000

7
使用CDN提高jQuery加载速度

2024-08-24 23:08:211000

8
小兔鲜儿网页首页制作黑马程序员前端基础项目自学笔记

2024-08-19 22:08:161000

9
《Vue》你的弹窗能拖动吗？Vue自定义指令实现可拖动弹窗

2024-08-19 22:08:121000

10
npm的使用

2024-08-18 00:08:131000

	val optionRDD: RDD[String] = sc.textFile("in/mystudent.txt")
	optionRDD.foreach(println)

	//分割，注意 \| 用的是单引号
	val option1: RDD[(String, String)] = optionRDD.map(x => {
	val arr = x.split('\|');
	(arr(0), arr(1))
	})
	option1.foreach(println)

	//转化成两列
	val jsonStrDF: DataFrame = option1.toDF("aid", "value")
	jsonStrDF.printSchema()
	jsonStrDF.show(false)

	val jsonObj: DataFrame = jsonStrDF.select(
	$"aid"
	, get_json_object($"value", "$.dept").as("dept")
	, get_json_object($"value", "$.email").as("email")
	, get_json_object($"value", "$.id").as("tid")
	, get_json_object($"value", "$.name").as("tname")
	, get_json_object($"value", "$.stus").as("stus")
	, get_json_object($"value", "$.tel").as("tel")
	)
	println("--------------------------1--------------------------")
	jsonObj.printSchema()
	jsonObj.show(false)

	val jsonObj2: DataFrame = jsonObj.select($"aid", $"email"
	, $"tid", $"tname"
	, get_json_object($"dept", "$.describe").as("describe")
	, get_json_object($"dept", "$.name").as("dname")
	, $"stus", $"tel"
	)
	println("--------------------------2--------------------------")
	jsonObj2.printSchema()
	jsonObj2.show(false)

	val fileds: List[StructField] =
	StructField("grade", StringType) ::
	StructField("id", StringType) ::
	StructField("name", StringType) ::
	StructField("school", StringType) :: Nil
	val jsonObj3: DataFrame = jsonObj2.select(
	$"aid", $"describe", $"dname", $"email", $"tid", $"tname"
	, from_json($"stus", ArrayType(
	StructType(
	fileds
	)
	)
	).as("events")
	)
	println("--------------------------3--------------------------")
	jsonObj3.printSchema()
	jsonObj3.show(false)

	//炸裂
	val jsonObj4: DataFrame = jsonObj3.withColumn("events", explode($"events"))
	println("--------------------------4--------------------------")
	jsonObj4.printSchema()
	jsonObj4.show(false)

	//新增列，删除原数据
	val jsonObj5: DataFrame = jsonObj4.withColumn("grade", $"events.grade")
	.withColumn("id", $"events.id")
	.withColumn("name", $"events.name")
	.withColumn("school", $"events.school")
	.drop("events")
	println("--------------------------5--------------------------")
	jsonObj5.printSchema()
	jsonObj5.show(false)

	val jsonObj6: DataFrame = jsonObj5.select($"aid", $"describe"
	, $"dname", $"email",$"tid",$"tname",$"grade",$"id",$"name",
	get_json_object($"school","$.address").as("address")
	,get_json_object($"school","$.leader").as("leader")
	,get_json_object($"school","$.name").as("schoolname"))
	println("--------------------------6--------------------------")
	jsonObj6.printSchema()
	jsonObj6.show(false)

	import org.apache.spark.rdd.RDD
	import org.apache.spark.{SparkConf, SparkContext}
	import org.apache.spark.sql.{DataFrame, SparkSession}

	object JsonMyStu {
	def main(args: Array[String]): Unit = {
	val conf: SparkConf = new SparkConf().setAppName("jsonstu3opdemo").setMaster("local[*]")
	val spark: SparkSession = SparkSession.builder().config(conf).getOrCreate()
	val sc: SparkContext = spark.sparkContext

	import spark.implicits._
	import org.apache.spark.sql.functions._
	import org.apache.spark.sql.types._

	val optionRDD: RDD[String] = sc.textFile("in/mystudent.txt")
	optionRDD.foreach(println)


	//按照 \| 分割成两列
	val option1: RDD[(String, String)] = optionRDD.map(x => {
	val arr = x.split('\|');
	(arr(0), arr(1))
	})
	option1.foreach(println)

	val jsonStrDF: DataFrame = option1.toDF("aid", "value")
	jsonStrDF.printSchema()
	jsonStrDF.show(false)

	val jsonObj: DataFrame = jsonStrDF.select(
	$"aid"
	, get_json_object($"value", "$.dept").as("dept")
	, get_json_object($"value", "$.email").as("email")
	, get_json_object($"value", "$.id").as("tid")
	, get_json_object($"value", "$.name").as("tname")
	, get_json_object($"value", "$.stus").as("stus")
	, get_json_object($"value", "$.tel").as("tel")
	)
	println("--------------------------1--------------------------")
	jsonObj.printSchema()
	jsonObj.show(false)

	val jsonObj2: DataFrame = jsonObj.select($"aid", $"email"
	, $"tid", $"tname"
	, get_json_object($"dept", "$.describe").as("describe")
	, get_json_object($"dept", "$.name").as("dname")
	, $"stus", $"tel"
	)
	println("--------------------------2--------------------------")
	jsonObj2.printSchema()
	jsonObj2.show(false)

	val fileds: List[StructField] =
	StructField("grade", StringType) ::
	StructField("id", StringType) ::
	StructField("name", StringType) ::
	StructField("school", StringType) :: Nil
	val jsonObj3: DataFrame = jsonObj2.select(
	$"aid", $"describe", $"dname", $"email", $"tid", $"tname"
	, from_json($"stus", ArrayType(
	StructType(
	fileds
	)
	)
	).as("events")
	)
	println("--------------------------3--------------------------")
	jsonObj3.printSchema()
	jsonObj3.show(false)

	val jsonObj4: DataFrame = jsonObj3.withColumn("events", explode($"events"))
	println("--------------------------4--------------------------")
	jsonObj4.printSchema()
	jsonObj4.show(false)

	val jsonObj5: DataFrame = jsonObj4.withColumn("grade", $"events.grade")
	.withColumn("id", $"events.id")
	.withColumn("name", $"events.name")
	.withColumn("school", $"events.school")
	.drop("events")
	println("--------------------------5--------------------------")
	jsonObj5.printSchema()
	jsonObj5.show(false)

	val jsonObj6: DataFrame = jsonObj5.select($"aid", $"describe"
	, $"dname", $"email",$"tid",$"tname",$"grade",$"id",$"name",
	get_json_object($"school","$.address").as("address")
	,get_json_object($"school","$.leader").as("leader")
	,get_json_object($"school","$.name").as("schoolname"))
	println("--------------------------6--------------------------")
	jsonObj6.printSchema()
	jsonObj6.show(false)

	}
	}

	//如果分割符是，则用以下方法，indexOf返回第一个此元素的下标值
	/*val optinRDD: RDD[String] = sc.textFile("in/mystudent.txt")
	optinRDD.foreach(println)
	val frame: RDD[(String, String)] = optinRDD.map(
	x => {
	//返回第一个，所在的位置
	val i: Int = x.indexOf(",")//1

	//开始截取
	//(0,i)--->(0,1)
	//(i+1) 2 从下标元素开始到末尾
	val tuple: (String, String) = (x.substring(0, i), x.substring(i + 1))
	tuple
	}
	)*/

Spark 之 解析json的复杂和嵌套数据结构

微信扫一扫：分享

Spark 之解析json的复杂和嵌套数据结构