'우리는 개발자/Data Science' 카테고리의 글 목록 (3 Page)

우리는 개발자/Data Science

[Ipython/JupyterNotebook] Linux 환경변수 추가/설정 하는 방법 (PYTHONPATH, LD_LIBRARY_PATH)

2019. 9. 4. 23:49

jupyter notebook --generate-config의 명령을 통해 기본 경로 ~/.jupyter에 config파일을 생성할수 있다.

만약 이미 생성이 되어 있다면 jupyter --config-dir을 통해 경로를 확인할 수 있다. 경로를 확인하고 아래 코드를 통해 환경변수를 추가하자

import os
c = get_config()
os.environ['LD_LIBRARY_PATH'] = '/home1/jslee/library/lib'
os.environ['PYTHONPATH'] = '${PYTHONPATH}:/home1/jslee/library/binding/python'

c.Spawner.env.update('LD_LIBRARY_PATH')
c.Spawner.env.update('PYTHONPATH')

관련이슈
- https://github.com/jupyter/notebook/issues/1290

저작자표시 비영리 변경금지

'우리는 개발자 > Data Science' 카테고리의 다른 글

[Pandas] 에서 apply의 얼마나 처리되었는지 진행상황을 확인하는 방법 (tqdm 사용) (0)	2019.09.06
[Pandas] DataFrame 필터링과 동시에 데이터 읽기 (chunksize, iterator=True) (0)	2019.09.06
[Ipython/JupyterNotebook] Pandas의 DataFrame의 결과 화면을 설정하는 방법 pd.option.display, pd.set_option (0)	2019.09.04
[Pandas] DataFrame에서 str.split을 이용해 하나의 컬럼을 두개의 컬럼으로 나누는 방법 (0)	2019.09.04
[Pandas] DataFrame을 Elasticsearch Index로 삽입하는 방법, DataFrame2EsIndex (0)	2019.09.04

[Ipython/JupyterNotebook] Pandas의 DataFrame의 결과 화면을 설정하는 방법 pd.option.display, pd.set_option

2019. 9. 4. 23:46

Ipython, JupyterNotebook을 사용하다보면,
df.head(100)의 결과를 출력할 경우가 있다. (하지만? 10개정도 보일것이다.)
df.head(1)의 결과를 출력하니 컬럼에 ...으로 나올때도 있다.
df.head(1)의 결과에서 dataframe의 폭이 좁을때가 있다.

이런 여러가지 상황에서 dataframe의 출력 결과를 설정하는게 필요하다.
아래 pd.option.display 또는 pd.set_option을 통해 변경이 가능하다.

pd.options.display.max_columns = 30
pd.options.display.max_rows = 20

pd.set_option('display.height', 1000)
pd.set_option('display.max_rows', 200)
pd.set_option('display.max_columns', 500)
pd.set_option('display.width', 1000)

저작자표시 비영리 변경금지

'우리는 개발자 > Data Science' 카테고리의 다른 글

[Pandas] DataFrame 필터링과 동시에 데이터 읽기 (chunksize, iterator=True) (0)	2019.09.06
[Ipython/JupyterNotebook] Linux 환경변수 추가/설정 하는 방법 (PYTHONPATH, LD_LIBRARY_PATH) (0)	2019.09.04
[Pandas] DataFrame에서 str.split을 이용해 하나의 컬럼을 두개의 컬럼으로 나누는 방법 (0)	2019.09.04
[Pandas] DataFrame을 Elasticsearch Index로 삽입하는 방법, DataFrame2EsIndex (0)	2019.09.04
[Pandas] DataFrame에서 mean()의 결과가 inf? inf값을 찾고, 값을 변경해보자 (0)	2019.09.04

[Pandas] DataFrame에서 str.split을 이용해 하나의 컬럼을 두개의 컬럼으로 나누는 방법

2019. 9. 4. 23:42

Hive에서의 파티션의 결과는 ymd=201807/hh24=03의 형태로 값이 넘어온다.
하나의 컬럼에 다음과 같이 들어오기 때문에 로우를 파싱해야한다.
내가 원하는 결과는 ymd=201807, hh24=03의 두개의 컬럼으로 나누고,
나눈 결과를 다시 한번더 처리해서 ymd의 컬럼에 201807, hh24의 컬럼에 03이 들어 가도록 처리하고 싶다.

str.split(delimiter', expand=True)를 통해서 하나의 컬럼을 두개의 컬럼으로 나눌 수 있다.

df[['First','Last']] = df.Name.str.split("_",expand=True) 

def parse_partition(df):
  df[['ymd', 'hh24']] = df['partition'].str.split("/", expand=True)
  df[['ymd', 'ymd_v']] = df['ymd'].str.split("=", expand=True)
  df[['hh24', 'hh24_v']] = df['hh24'].str.split("=", expand=True)
  df = df[['ymd_v','hh24_v']]
  df.columns = ['ymd', 'hh24']
  return df

저작자표시 비영리 변경금지

'우리는 개발자 > Data Science' 카테고리의 다른 글

[Ipython/JupyterNotebook] Linux 환경변수 추가/설정 하는 방법 (PYTHONPATH, LD_LIBRARY_PATH) (0)	2019.09.04
[Ipython/JupyterNotebook] Pandas의 DataFrame의 결과 화면을 설정하는 방법 pd.option.display, pd.set_option (0)	2019.09.04
[Pandas] DataFrame을 Elasticsearch Index로 삽입하는 방법, DataFrame2EsIndex (0)	2019.09.04
[Pandas] DataFrame에서 mean()의 결과가 inf? inf값을 찾고, 값을 변경해보자 (0)	2019.09.04
[Pandas] DataFrame을 Spark의 DataFrame으로 변환 PandasDataFrame To SparkDataFrame (0)	2019.09.04

[Pandas] DataFrame을 Elasticsearch Index로 삽입하는 방법, DataFrame2EsIndex

2019. 9. 4. 23:36

DataFrame의 결과를 Elasticsearch의 Index로 넣어야 했다.
물론? python에서도 elasticsearch의 패키지가 있다.

아래와 같이 es_client를 정의 할때, 내가 넣고자 하는 ES_HOST를 파라미터로 넘겨주면 된다.

예: Elasticsearch('localhost:9200')

use_these_keys에는 dataframe의 여러 컬럼중에서 내가 es에 넣을 필드의 리스트를 넣어 주면 된다.
아래 helpers.bulk를 이용하여 doc_generator에 정의한 index, type, _id, _source 의 형태로 값이 들어간다.

from elasticsearch import Elasticsearch
from elasticsearch import helpers

es_client = Elasticsearch(http_compress=True)
def doc_generator(df):
    df_iter = df.iterrows()
    for index, document in df_iter:
        yield {
                "_index": 'your_index',
                "_type": "_doc",
                "_id" : f"{document['id']}",
                "_source": filterKeys(document),
            }
    raise StopIteration

use_these_keys = ['id', 'value', 'value1']

def filterKeys(document):
    return {key: document[key] for key in use_these_keys }    


helpers.bulk(es_client, doc_generator(your_dataframe))

참고
- https://towardsdatascience.com/exporting-pandas-data-to-elasticsearch-724aa4dd8f62

저작자표시 비영리 변경금지

'우리는 개발자 > Data Science' 카테고리의 다른 글

[Ipython/JupyterNotebook] Pandas의 DataFrame의 결과 화면을 설정하는 방법 pd.option.display, pd.set_option (0)	2019.09.04
[Pandas] DataFrame에서 str.split을 이용해 하나의 컬럼을 두개의 컬럼으로 나누는 방법 (0)	2019.09.04
[Pandas] DataFrame에서 mean()의 결과가 inf? inf값을 찾고, 값을 변경해보자 (0)	2019.09.04
[Pandas] DataFrame을 Spark의 DataFrame으로 변환 PandasDataFrame To SparkDataFrame (0)	2019.09.04
[Pandas] Json 파일 DataFrame으로 변환하는 방법 Dictionary2DataFrame (0)	2019.09.04

[Pandas] DataFrame에서 mean()의 결과가 inf? inf값을 찾고, 값을 변경해보자

2019. 9. 4. 23:31

전체 컬럼에서 mean()을 계산하는데 계속 inf의 값이 나왔다.
분명히 NaN의 값을 fillna(0.0)으로 했지만 계속 문제가 나옴.
head(100).tail(50).head(25) 이런식으로 원식적으로... 접근해보니 inf의 값이 있었다.
아래 방법을 통해서 np.inf로 찾아내고, nan으로 변경하고 fillna(0.0)을 하자

import numpy as np

df.replace([np.inf, -np.inf], np.nan).dropna(subset=["col1", "col2"], how="all")

저작자표시 비영리 변경금지

'우리는 개발자 > Data Science' 카테고리의 다른 글

[Pandas] DataFrame에서 str.split을 이용해 하나의 컬럼을 두개의 컬럼으로 나누는 방법 (0)	2019.09.04
[Pandas] DataFrame을 Elasticsearch Index로 삽입하는 방법, DataFrame2EsIndex (0)	2019.09.04
[Pandas] DataFrame을 Spark의 DataFrame으로 변환 PandasDataFrame To SparkDataFrame (0)	2019.09.04
[Pandas] Json 파일 DataFrame으로 변환하는 방법 Dictionary2DataFrame (0)	2019.09.04
[Pandas] DataFrame CSV 파일 읽을때 iterator를 이용해 필요한 데이터만 메모리에 올리는 방법 (0)	2019.09.04

[Pandas] DataFrame을 Spark의 DataFrame으로 변환 PandasDataFrame To SparkDataFrame

2019. 9. 4. 23:27

큰 데이터를 만지다보면, Spark의 DataFrame과 Pandas의 DataFrame의 서로 변환이 꼭 필수다.
예를들어서 Pandas의 DataFrame을 Spark SQL의 테이블로 등록하고, Spark에서 작업을 하기도 한다.
만약 이 방법을 모른다면, 어떻게 테이블로 변환을 할것인가?

Pandas의 DataFrame을 Spark의 DataFrame으로 변환하기 위해서는
spark.createDataFrame(df)를 하면된다. (너무 간단함...)
spark2 이상에서 사용했으니 1.x에서는 알아서 바꿔서 하면 될듯!

보통 spark와 pandas에서의 dataframe의 구분이 어렵기 때문에
pdf (=pandas data frame)으로 적는다. (아님 말고)

import pandas as pd
## Create Pandas Frame
pd_df = pd.DataFrame({u'2017-01-01': 1, u'2017-01-02': 2}.items())
## Convert into Spark DataFrame
spark_df = spark.createDataFrame(pd_df)
## Write Frame out as Table
spark_df.write.mode("overwrite").saveAsTable("db.table_name")

저작자표시 비영리 변경금지

'우리는 개발자 > Data Science' 카테고리의 다른 글

[Pandas] DataFrame을 Elasticsearch Index로 삽입하는 방법, DataFrame2EsIndex (0)	2019.09.04
[Pandas] DataFrame에서 mean()의 결과가 inf? inf값을 찾고, 값을 변경해보자 (0)	2019.09.04
[Pandas] Json 파일 DataFrame으로 변환하는 방법 Dictionary2DataFrame (0)	2019.09.04
[Pandas] DataFrame CSV 파일 읽을때 iterator를 이용해 필요한 데이터만 메모리에 올리는 방법 (0)	2019.09.04
[Pandas] DataFrame에서 각각의 컬럼들의 NaN 확인하고, 원하는 값 채우기 (isnull, fillna, np.isnan, ~np.isnan) (0)	2019.09.04

[Pandas] Json 파일 DataFrame으로 변환하는 방법 Dictionary2DataFrame

2019. 9. 4. 23:21

json의 파일이 있을때, dataframe으로 변환을 하고 싶을때가 있다.
보통 json은 리스트 형태로 안에 dictionary로 되어있다.
json.loads의 함수를 이용해 dictionary로 변환하고, from_dict을 이용하자.

import pandas as pd
import json

filename='file.json'
stats = open(filename, 'r').readline()
stats = json.loads(stats)
display(pd.DataFrame.from_dict([stats]))

저작자표시 비영리 변경금지

'우리는 개발자 > Data Science' 카테고리의 다른 글

[Pandas] DataFrame에서 mean()의 결과가 inf? inf값을 찾고, 값을 변경해보자 (0)	2019.09.04
[Pandas] DataFrame을 Spark의 DataFrame으로 변환 PandasDataFrame To SparkDataFrame (0)	2019.09.04
[Pandas] DataFrame CSV 파일 읽을때 iterator를 이용해 필요한 데이터만 메모리에 올리는 방법 (0)	2019.09.04
[Pandas] DataFrame에서 각각의 컬럼들의 NaN 확인하고, 원하는 값 채우기 (isnull, fillna, np.isnan, ~np.isnan) (0)	2019.09.04
[Ipython/JupyterNotebook] 노트 실행시에 내가 원하는 패키지/모듈을 불러오는 방법 (노트 시작 후 반복적인 startup에 등록) (0)	2019.09.04

[Pandas] DataFrame CSV 파일 읽을때 iterator를 이용해 필요한 데이터만 메모리에 올리는 방법

2019. 9. 4. 23:18

dataframe에서 데이터 읽을때는 iterator를 이용해서 불필요한 데이터는 메모리에 올리지 않는게 좋다.
데이터를 다 메모리에 읽은 이후에 filter를 통해서 걸러내도 좋지만,
데이터가 크면 이 역시도 무리가 있을수 있으니
다음과 같이 iterator=True와 chunksize=10000을 지정해서 메모리에 올리는 방법을 선택하는게 좋다.

import pandas as pd
iter_csv = pd.read_csv('data_in/data.txt', iterator=True, chunksize=1000, delimiter='\t', names=cols)
df = pd.concat([chunk[~np.isnan(chunk['cols'])] for chunk in iter_csv])
df = df.fillna('')

저작자표시 비영리 변경금지

'우리는 개발자 > Data Science' 카테고리의 다른 글

[Pandas] DataFrame을 Spark의 DataFrame으로 변환 PandasDataFrame To SparkDataFrame (0)	2019.09.04
[Pandas] Json 파일 DataFrame으로 변환하는 방법 Dictionary2DataFrame (0)	2019.09.04
[Pandas] DataFrame에서 각각의 컬럼들의 NaN 확인하고, 원하는 값 채우기 (isnull, fillna, np.isnan, ~np.isnan) (0)	2019.09.04
[Ipython/JupyterNotebook] 노트 실행시에 내가 원하는 패키지/모듈을 불러오는 방법 (노트 시작 후 반복적인 startup에 등록) (0)	2019.09.04
[Ipython/JupyterNotebook] Ipython/쥬피터 노트북 파이썬 모듈 자동으로 불러오는 방법 (reload option) (0)	2019.09.04

PREV 1 2 3 4 NEXT

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

더블리의 12층