'UDF' 태그의 글 목록

UDF

[Spark] Scala Chaining 을 이용해보자 (+예제코드) Transform, UDF, userDefineFunction 까지 코드를 보기좋게!

2020. 2. 28. 20:18

Chaining

작업을 chain의 형태로 진행한다고 해서 chaining 이라고 한다
chaining으로 package를 생성하고 관리하니 코드도 한결 보기 좋아졌다.

Transform

MyTransform

	import org.apache.spark.sql.functions._
	import com.naver.ad.ranking.SparkSessionWrapper

	object MyTransform extends SparkSessionWrapper {

	import spark.implicits._

	def withHandleNull(cn: String)(df: DataFrame): DataFrame = {
	df.withColumn(cn, when(col(cn)isNull, "").otherwise(col(cn)))
	}
	}

view raw MyTransform.scala hosted with ❤ by GitHub

두개의 테이블을 Merge하는 Transform


	import org.apache.spark.sql.DataFrame
	import org.apache.spark.sql.functions._
	import org.apache.spark.sql.expressions.UserDefinedFunction
	import com.naver.ad.ranking.SparkSessionWrapper

	object MergeTransform extends SparkSessionWrapper {

	import spark.implicits._

	def mergeDfs(oldDf: DataFrame, newDf: DataFrame, joinType: String ): DataFrame = {
	val mergedCfDf = oldDf
	.join(newDf,oldDf("Id") === newDf("newId"), joinType)
	mergedCfDf
	}

	def withMerge(df: DataFrame): DataFrame = {
	df.withColumn("mergedMCf", when($"newId"isNull, $"score").otherwise(lit($"newScore")))
	}
	}
	~

view raw MergeTransform.scala hosted with ❤ by GitHub

Udf와 함께 Parameter를 받는 Transform

	import org.apache.spark.sql.DataFrame
	import org.apache.spark.sql.functions._
	import org.apache.spark.sql.expressions.UserDefinedFunction

	object SampleTransform extends SparkSessionWrapper {

	import spark.implicits._

	val sampleFunc: (Double, Double, Int, Int) => Double = {
	(oldValue: Double, newValue: Double, score: Int, count: Int) =>
	oldValue + newValue + score + count
	}

	val sampleUdf: UserDefinedFunction = udf(sampleFunc)

	def withSample(score: Int, count: Int)(df: DataFrame): DataFrame = {
	df.withColumn("sampleScore", sampleUdf($"old", $"new", lit(score), lit(count)))
	}

	}

view raw SampleTransform.scala hosted with ❤ by GitHub

사용하는 방법

	df.transform(SampleTransform.withSample(1,2))
	.transform(MergeTransform.withMerge)

view raw spark_chaining.scala hosted with ❤ by GitHub

DataFrame의 transform을 이용하면 다음과 같이 사용이 가능하다.
withColumn의 성격이 비슷한 녀석끼리 모아주니까 확실히 편하다 (UDF, transform이 한 object에 있다고 생각해보면 잡)
이 방법 외에도 chain을 먼저 설정하고 chain에 함수들을 추가해서 한번에 실행도 가능하다. chained-transformations 여기를 참고!

참고

저작자표시 비영리 변경금지

'우리는 개발자 > Data Engineering' 카테고리의 다른 글

[elasticsearch] 클러스터 관리에 필요한 내용 + plugin에 대한 짧막한 설명. (0)	2020.03.03
[Spark] Scala DataFrame 특정 컬럼으로 정렬하기 (+소스코드) (0)	2020.02.28
[Spark] Scala Style Guide, (Vi/Vim)에서 편집할때 indentation/Highlight Style Plugin (0)	2020.02.28
[Spark] spark-testing-base에서 DataFrameSuiteBase 사용 (0)	2020.02.28
[Spark] None, null? DataFrame 생성시에 java.lang.ClassNotFoundException: scala.Any (0)	2020.02.28

[Spark] UserDefinedFunction (udf) 구현하는 방법 (+예제코드)

2020. 2. 27. 18:33

spark scala dataframe을 withColumn을 통해 한줄한줄 iteration을 돌려 처리가 가능하다.
내가 원하는 함수에 한개의 row를 넘기고, 그 처리된 결과를 새로운 column으로 생성한다.

예제코드

	import org.apache.spark.sql.functions._
	import org.apache.spark.sql.expressions.UserDefinedFunction

	val sampleFunc: (Double, Double, Int) => Double = {
	(value1: Double, value2: Double, cnt: Int) =>
	value1 + value2 + cnt
	}

	val sampleUdf: UserDefinedFunction = udf(sampleFunc)

	val df2 = df.withColumn("newColumn", sampleUdf($"col1", $"col2", lit(1)))
	df2.show()

view raw spark_udf.scala hosted with ❤ by GitHub

sampleFunc을 생성하고 UserDefinedFunction, udf를 통해 sampleUdf를 생성
생성된 sampleUdf는 DataFrame의 withColumn을 이용
- 첫번째 파라미터는 withColumn을 통해 생성될 신규 컬럼명
- 두번째 파라미터는 udfFunction + parameters
- 여기서 lit은 constant 값을 넘길때 사용한다.

저작자표시 비영리 변경금지

'우리는 개발자 > Data Engineering' 카테고리의 다른 글

[Spark] SchemaField nullable state 변경하는 방법 (0)	2020.02.28
[Spark] scala DataFrame 생성하기 for 예제 (0)	2020.02.27
[Spark] Scala joda Datetime 사용하는 방법 (+예제코드) - Days, DateTimeFormat, DateTime (0)	2020.02.27
[Spark] 시작할때 살펴보면 좋은 유용한 사이트 모음 (0)	2020.02.27
[Spark] Scala Test (Library, Sbt Test) (0)	2020.02.26

[Pandas] DataFrame Groupby Apply UDF 작성

2019. 9. 6. 00:25

DataFrame GroupBy를 하고 apply를 통해 내가 지정한 함수로 계산이 가능하도록 구현이 가능하다. 보통은 groupby('columnname').sum()을 통해 특정 컬럼에 대해서 그룹별로 합, 평균, 편차 등을 계산하게 된다. 조금더 복잡한 계산을 할 수 있을까?

여기서 복잡하다는 말은 특정 컬럼은 그룹별로 string의 리스트로 반환될 수 있다. 숫자의 경우 단순히 합을 계산하거나 평균을 계산하면 되지만, string은 concat을 하거나, dict, list의 형태로 반환을 해야하는 경우가 있다.

def f(x):
  x = x.C.unique()[0] # C컬럼에서 unique한 값을 빼내고 첫번째 값으로 (groupby로 포함해도 상관없음)
  return pd.Series(dict(A = x['A'].sum(), 
                    B = x['B'].sum(), 
                    C = "{%s}" % ', '.join(x['C'])))

df.groupby('A').apply(f)
"""
A         B               C
A                             
1  2  1.615586  {This, string}
2  4  0.421821         {is, !}
3  3  0.463468             {a}
4  4  0.643961        {random}
"""

저작자표시 비영리 변경금지

'우리는 개발자 > Data Science' 카테고리의 다른 글

[Python] Python3 SimpleHTTPServer, http.server (0)	2019.09.07
[Python] Hive 테이블 데이터 가져오기 (subprocess, commands) (0)	2019.09.07
[Pandas] DataFrame apply udf를 이용할때 여러개의 컬럼을 넘기고 받는 방법 (multiple columns apply udf) (0)	2019.09.06
[Pandas] DataFrame apply 함수를 Paralleization 하는 방법 (병렬처리 하는 방법) (1)	2019.09.06
[Pandas] 에서 apply의 얼마나 처리되었는지 진행상황을 확인하는 방법 (tqdm 사용) (0)	2019.09.06

[Pandas] DataFrame apply udf를 이용할때 여러개의 컬럼을 넘기고 받는 방법 (multiple columns apply udf)

2019. 9. 6. 00:24

pandas를 사용하다보면 여러개의 컬럼의 결과를 하나의 값으로 계산할때도 있지만, 여러개의 값으로 여러개의 값을 계산하고 싶을때가 있다. 이때는 아래와 같이 하면 multiple columns의 결과를 받을 수 있다.

udf에서 두개의 값을 반환한다면, df에서 각각의 컬럼에 대해서 반환값을 넣어주고, zip(*df.apply)를 해줘야 두개의 컬럼으로 각각 값이 들어간다

def preprocessing_udf(x):  
  keyword = preprocessing(x['keyword'])
  context = preprocessing(x['context'])
  return keyword, context

def parallel_preprocessing(df): 
  # df['pre_context'] = df.progress_apply(preprocessing_udf, axis=1)
  df['pre_keyword'], df['pre_context'] = zip(*df.apply(preprocessing_udf, axis=1))
  return df

parallelize_dataframe(result_sample_df, parallel_preprocessing,n_cores=2)

저작자표시 비영리 변경금지

'우리는 개발자 > Data Science' 카테고리의 다른 글

[Python] Hive 테이블 데이터 가져오기 (subprocess, commands) (0)	2019.09.07
[Pandas] DataFrame Groupby Apply UDF 작성 (0)	2019.09.06
[Pandas] DataFrame apply 함수를 Paralleization 하는 방법 (병렬처리 하는 방법) (1)	2019.09.06
[Pandas] 에서 apply의 얼마나 처리되었는지 진행상황을 확인하는 방법 (tqdm 사용) (0)	2019.09.06
[Pandas] DataFrame 필터링과 동시에 데이터 읽기 (chunksize, iterator=True) (0)	2019.09.06

PREV 1 NEXT

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

더블리의 12층

UDF

[Spark] Scala Chaining 을 이용해보자 (+예제코드) Transform, UDF, userDefineFunction 까지 코드를 보기좋게!

Chaining

Transform

MyTransform

두개의 테이블을 Merge하는 Transform

Udf와 함께 Parameter를 받는 Transform

사용하는 방법

참고

'우리는 개발자 > Data Engineering' 카테고리의 다른 글

[Spark] UserDefinedFunction (udf) 구현하는 방법 (+예제코드)

예제코드

'우리는 개발자 > Data Engineering' 카테고리의 다른 글

[Pandas] DataFrame Groupby Apply UDF 작성

'우리는 개발자 > Data Science' 카테고리의 다른 글

[Pandas] DataFrame apply udf를 이용할때 여러개의 컬럼을 넘기고 받는 방법 (multiple columns apply udf)

'우리는 개발자 > Data Science' 카테고리의 다른 글

+ Recent posts

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역