'Vector' 태그의 글 목록

Vector

[Python] embedding vector를 하나로 합치는 방법 2019.09.07
[Python] 두개의 벡터(vector) cosine similarity 계산하는 방법 2019.09.07

[Python] embedding vector를 하나로 합치는 방법

2019. 9. 7. 00:27

embedding 벡터를 합치기 위해서는 np.zeros()를 통해 초기화를 진행하고
초기화된 embed에 누적해서 벡터의 값을 더해주고
마지막으로 합치는 벡터의 개수로 나눠준다.

def agg_embed(terms):
  embed = np.zeros(128) 
  for term in terms: 
      embed += np.array(term['embedding'])
  embed /= len(terms)
  return embed

저작자표시 비영리 변경금지

'우리는 개발자 > Data Science' 카테고리의 다른 글

[Python] seaborn을 이용해 시각화를 아름답게! Statistical Data Visualization (0)	2019.12.08
Jupyter에서 한글 깨짐 배달의 민족 글씨체로 설정 (0)	2019.12.02
[Python] 두개의 벡터(vector) cosine similarity 계산하는 방법 (0)	2019.09.07
[Python] collections.Counter를 이용해 리스트의 값 개수세기 (0)	2019.09.07
[Python] 정규식 (Regex)를 이용해 한글만 추출하는 방법 (모음, 자음 구분) (0)	2019.09.07

[Python] 두개의 벡터(vector) cosine similarity 계산하는 방법

2019. 9. 7. 00:25

sentence embedding을 얻었다면, 두개의 유사도를 계산하기 위해서는 cosine similarity를 이용해서 계산을 해야한다.

pandas에서 udf를 통해 계산하는 방법은 아래와 같다.
keyword와 context에는 문자열이 들어가면 된다.

ex: keyword: 안녕, context: 잘가요. 멀리 안가요


import numpy as np
from scipy import spatial

def sim(x, y): 
  embed1 = get_embed(x)  
  embed2 = get_embed(y) 
  return 1 - spatial.distance.cosine(embed1, embed2)

def sim_udf(x): 
  sim_value = sim(x['keyword'], x['context'])  
  return sim_value 


df['cosim'] = df.apply(sim_udf, axis=1)

저작자표시 비영리 변경금지

'우리는 개발자 > Data Science' 카테고리의 다른 글

Jupyter에서 한글 깨짐 배달의 민족 글씨체로 설정 (0)	2019.12.02
[Python] embedding vector를 하나로 합치는 방법 (0)	2019.09.07
[Python] collections.Counter를 이용해 리스트의 값 개수세기 (0)	2019.09.07
[Python] 정규식 (Regex)를 이용해 한글만 추출하는 방법 (모음, 자음 구분) (0)	2019.09.07
[Python] 한글 전처리 모음 (0)	2019.09.07

PREV 1 NEXT

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

더블리의 12층

Vector

[Python] embedding vector를 하나로 합치는 방법

'우리는 개발자 > Data Science' 카테고리의 다른 글

[Python] 두개의 벡터(vector) cosine similarity 계산하는 방법

'우리는 개발자 > Data Science' 카테고리의 다른 글

+ Recent posts

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역