'createDataFrame' 태그의 글 목록

createDataFrame

[Spark] None, null? DataFrame 생성시에 java.lang.ClassNotFoundException: scala.Any 2020.02.28
[Spark] scala DataFrame 생성하기 for 예제 2020.02.27

[Spark] None, null? DataFrame 생성시에 java.lang.ClassNotFoundException: scala.Any

2020. 2. 28. 16:42

ExpectedDf에 `null`을 포함

Scala에서는 null의 값을 넣기 위해서는 다음과 같이 해야 한다.
여기서 문제는 Double의 경우 null을 넣어주면 에러가 발생하는데

Double값 대신에 null을 넣으면 발생하는 에러

val account = sc.parallelize(Seq(
                                 (1, null, 2,"F", null), 
                                 (2, new Integer(2), 4, "F",  1.2),
                                 (3, new Integer(3), 6, "N", 1.0),
                                 (4, null,8,"F", 1.0))).toDF()
account.show()

java.lang.ClassNotFoundException: scala.Any
  at scala.reflect.internal.util.AbstractFileClassLoader.findClass(AbstractFileClassLoader.scala:62)
  at java.lang.ClassLoader.loadClass(ClassLoader.java:424)
  at java.lang.ClassLoader.loadClass(ClassLoader.java:357)
  at java.lang.Class.forName0(Native Method)
  at java.lang.Class.forName(Class.java:348)
  at scala.reflect.runtime.JavaMirrors$JavaMirror.javaClass(JavaMirrors.scala:555)
  at scala.reflect.runtime.JavaMirrors$JavaMirror$$anonfun$classToJava$1.apply(JavaMirrors.scala:1211)
  at scala.reflect.runtime.JavaMirrors$JavaMirror$$anonfun$classToJava$1.apply(JavaMirrors.scala:1203)
  at scala.reflect.runtime.TwoWayCaches$TwoWayCache$$anonfun$toJava$1.apply(TwoWayCaches.scala:49)
  at scala.reflect.runtime.Gil$class.gilSynchronized(Gil.scala:19)
  at scala.reflect.runtime.JavaUniverse.gilSynchronized(JavaUniverse.scala:16)
  at scala.reflect.runtime.TwoWayCaches$TwoWayCache.toJava(TwoWayCaches.scala:44)
  at scala.reflect.runtime.JavaMirrors$JavaMirror.classToJava(JavaMirrors.scala:1203)
  at scala.reflect.runtime.JavaMirrors$JavaMirror.runtimeClass(JavaMirrors.scala:194)
  at scala.reflect.runtime.JavaMirrors$JavaMirror.runtimeClass(JavaMirrors.scala:54)
  at org.apache.spark.sql.catalyst.ScalaReflection$.getClassFromType(ScalaReflection.scala:700)
  at org.apache.spark.sql.catalyst.ScalaReflection$$anonfun$org$apache$spark$sql$catalyst$ScalaReflection$$dataTypeFor$1.apply(ScalaReflection.scala:84)
  at org.apache.spark.sql.catalyst.ScalaReflection$$anonfun$org$apache$spark$sql$catalyst$ScalaReflection$$dataTypeFor$1.apply(ScalaReflection.scala:65)
  at scala.reflect.internal.tpe.TypeConstraints$UndoLog.undo(TypeConstraints.scala:56)
  at org.apache.spark.sql.catalyst.ScalaReflection$class.cleanUpReflectionObjects(ScalaReflection.scala:824)
  at org.apache.spark.sql.catalyst.ScalaReflection$.cleanUpReflectionObjects(ScalaReflection.scala:39)
  at org.apache.spark.sql.catalyst.ScalaReflection$.org$apache$spark$sql$catalyst$ScalaReflection$$dataTypeFor(ScalaReflection.scala:64)
  at org.apache.spark.sql.catalyst.ScalaReflection$$anonfun$org$apache$spark$sql$catalyst$ScalaReflection$$serializerFor$1$$anonfun$8.apply(ScalaReflection.scala:632)
  at org.apache.spark.sql.catalyst.ScalaReflection$$anonfun$org$apache$spark$sql$catalyst$ScalaReflection$$serializerFor$1$$anonfun$8.apply(ScalaReflection.scala:625)
  at scala.collection.TraversableLike$$anonfun$flatMap$1.apply(TraversableLike.scala:241)
  at scala.collection.TraversableLike$$anonfun$flatMap$1.apply(TraversableLike.scala:241)
  at scala.collection.immutable.List.foreach(List.scala:381)
  at scala.collection.TraversableLike$class.flatMap(TraversableLike.scala:241)
  at scala.collection.immutable.List.flatMap(List.scala:344)
  at org.apache.spark.sql.catalyst.ScalaReflection$$anonfun$org$apache$spark$sql$catalyst$ScalaReflection$$serializerFor$1.apply(ScalaReflection.scala:625)
  at org.apache.spark.sql.catalyst.ScalaReflection$$anonfun$org$apache$spark$sql$catalyst$ScalaReflection$$serializerFor$1.apply(ScalaReflection.scala:445)
  at scala.reflect.internal.tpe.TypeConstraints$UndoLog.undo(TypeConstraints.scala:56)
  at org.apache.spark.sql.catalyst.ScalaReflection$class.cleanUpReflectionObjects(ScalaReflection.scala:824)
  at org.apache.spark.sql.catalyst.ScalaReflection$.cleanUpReflectionObjects(ScalaReflection.scala:39)
  at org.apache.spark.sql.catalyst.ScalaReflection$.org$apache$spark$sql$catalyst$ScalaReflection$$serializerFor(ScalaReflection.scala:445)
  at org.apache.spark.sql.catalyst.ScalaReflection$.serializerFor(ScalaReflection.scala:434)
  at org.apache.spark.sql.catalyst.encoders.ExpressionEncoder$.apply(ExpressionEncoder.scala:71)
  at org.apache.spark.sql.Encoders$.product(Encoders.scala:275)
  at org.apache.spark.sql.LowPrioritySQLImplicits$class.newProductEncoder(SQLImplicits.scala:248)
  at org.apache.spark.sql.SQLImplicits.newProductEncoder(SQLImplicits.scala:34)
  ... 53 elided

위 에러를 잘보면 scala.Any라는 클래스를 찾을수 없다고 하는데
Any는 너무 general type이여서 Spark에서는 어떻게 serialize를 해야하는지 모른다 scala-unified-types
그러니 Integer를 사용할때도 null.asInstanceOf[Integer] 다음과 같이 명시를 해야한다.

createDataFrame으로 생성

RDD를 사용하지 않고, 아래와 같이 createDataFrame을 사용하며 문제를 해결할 수 있다.
아래와 같이 하면 Double값을 Some(1.5)로 사용해도 정상적으로 생성이 된다.
RDD로 생성하는 방법은 찾지 못함..

저작자표시 비영리 변경금지

'우리는 개발자 > Data Engineering' 카테고리의 다른 글

[Spark] Scala Style Guide, (Vi/Vim)에서 편집할때 indentation/Highlight Style Plugin (0)	2020.02.28
[Spark] spark-testing-base에서 DataFrameSuiteBase 사용 (0)	2020.02.28
[Spark] SchemaField nullable state 변경하는 방법 (0)	2020.02.28
[Spark] scala DataFrame 생성하기 for 예제 (0)	2020.02.27
[Spark] UserDefinedFunction (udf) 구현하는 방법 (+예제코드) (0)	2020.02.27

[Spark] scala DataFrame 생성하기 for 예제

2020. 2. 27. 18:36

scala에서 dataframe을 생성하는 코드

코드

참고
- https://sparkbyexamples.com/spark/different-ways-to-create-a-spark-dataframe/

저작자표시 비영리 변경금지

'우리는 개발자 > Data Engineering' 카테고리의 다른 글

[Spark] None, null? DataFrame 생성시에 java.lang.ClassNotFoundException: scala.Any (0)	2020.02.28
[Spark] SchemaField nullable state 변경하는 방법 (0)	2020.02.28
[Spark] UserDefinedFunction (udf) 구현하는 방법 (+예제코드) (0)	2020.02.27
[Spark] Scala joda Datetime 사용하는 방법 (+예제코드) - Days, DateTimeFormat, DateTime (0)	2020.02.27
[Spark] 시작할때 살펴보면 좋은 유용한 사이트 모음 (0)	2020.02.27

PREV 1 NEXT

더블리의 12층

createDataFrame

[Spark] None, null? DataFrame 생성시에 java.lang.ClassNotFoundException: scala.Any

ExpectedDf에 `null`을 포함

Double값 대신에 null을 넣으면 발생하는 에러

createDataFrame으로 생성

'우리는 개발자 > Data Engineering' 카테고리의 다른 글

[Spark] scala DataFrame 생성하기 for 예제

코드

'우리는 개발자 > Data Engineering' 카테고리의 다른 글

+ Recent posts

티스토리툴바

더블리의 12층

createDataFrame

[Spark] None, null? DataFrame 생성시에 java.lang.ClassNotFoundException: scala.Any

ExpectedDf에 null을 포함

Double값 대신에 null을 넣으면 발생하는 에러

createDataFrame으로 생성

'우리는 개발자 > Data Engineering' 카테고리의 다른 글

[Spark] scala DataFrame 생성하기 for 예제

코드

'우리는 개발자 > Data Engineering' 카테고리의 다른 글

+ Recent posts

티스토리툴바

ExpectedDf에 `null`을 포함