[Spark] Scala Chaining 을 이용해보자 (+예제코드) Transform, UDF, userDefineFunction 까지 코드를 보기좋게!

2020. 2. 28. 20:18

작업을 chain의 형태로 진행한다고 해서 chaining 이라고 한다
chaining으로 package를 생성하고 관리하니 코드도 한결 보기 좋아졌다.

Transform

DataFrame의 transform을 이용하면 다음과 같이 사용이 가능하다.
withColumn의 성격이 비슷한 녀석끼리 모아주니까 확실히 편하다 (UDF, transform이 한 object에 있다고 생각해보면 잡)
이 방법 외에도 chain을 먼저 설정하고 chain에 함수들을 추가해서 한번에 실행도 가능하다. chained-transformations 여기를 참고!

[elasticsearch] 클러스터 관리에 필요한 내용 + plugin에 대한 짧막한 설명. (0)	2020.03.03
[Spark] Scala DataFrame 특정 컬럼으로 정렬하기 (+소스코드) (0)	2020.02.28
[Spark] Scala Style Guide, (Vi/Vim)에서 편집할때 indentation/Highlight Style Plugin (0)	2020.02.28
[Spark] spark-testing-base에서 DataFrameSuiteBase 사용 (0)	2020.02.28
[Spark] None, null? DataFrame 생성시에 java.lang.ClassNotFoundException: scala.Any (0)	2020.02.28