This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
부동산 데이터를 살펴보다 보니 층 데이터에 NaN이 있는게 아닌가.. 이게 어떤 값인지... 웃긴건 분당동 전체 112612개중에 달랑 3개만 NaN의 값이다.
date 건축년도 년 법정동 보증금액 아파트 월 월세금액 일 전용면적 지번 지역코드 층
1242019061992.02019.0 수내동 64,000 양지마을(5단지)(한양515-529) 6.0029.084.92441135.0 NaN
1262019061992.02019.0 수내동 64,000 양지마을(5단지)(한양515-529) 6.0029.084.92441135.0 NaN
1282019061992.02019.0 수내동 64,000 양지마을(5단지)(한양515-529) 6.0029.084.92441135.0 NaN
데이터의 신뢰도를 위해서 국토부에서 동일한 기간의 데이터를 받아봤더니 NaN의 값은 층 0층이다.
1516 경기도 성남분당구 수내동 2400240000 양지마을(5단지)(한양515-529) 전세 84.92019062964,000001992 내정로165번길 351517 경기도 성남분당구 수내동 2400240000 양지마을(5단지)(한양515-529) 전세 84.92019062964,000001992 내정로165번길 351518 경기도 성남분당구 수내동 2400240000 양지마을(5단지)(한양515-529) 전세 84.92019062964,000001992 내정로165번길 35
응? 0층이 어디에 있지.. 네이버 부동산 매물을 보아도 양지마을(5단지)에는 0층이 없다.
부동산 데이터는 국토부에서 가져올수가 있는데, 국토부 데이터는 하나씩 특정 조회를 통해서 가져올 수 있다. 내가 원하는 모든 데이터를 가져오기에는 매우 큰 노가다가 필요하다.
국토부 데이터 파싱하기
국토부에서 특정조건으로 데이터를 다운로드
아래와 같이 parsing이 가능하다.
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
opendata는 API를 제공하고 있어 serviceKey를 발급받고 아래와 같이 조회하면 된다.
파라미터로 사용하는 값은 월데이터 ex: 201901와 법정동코드이다.
이때 하나의 팁은 numOfRows의 값을 9999로 넘겨주면!? 한번의 요청으로 모든 결과를 가져올수 있다.
이렇게 해야하는 이유는 요청 제한이 있기 때문이다.
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
부동산 실거래가를 공공데이터에서 제공하는 API로 다운로드를 받았는데 그럴 필요가 없다는 사실을 알아서 충격이였다.
국토교통부에서 실거래가 공개시스템이 있는데 기간을 설정하면 특정날짜에 실거래가 데이터를 다운로드 받을 수 있다. 실제로 다운로드 받은 데이터와 API를 통해 다운로드 받은 데이터의 개수가 다른것을 확인하니 어디 쪽을 믿어야 하나... 일단 데이터를 다운로드 받고 나서 아래와 같이 파일을 읽으면 된다. 맥에서는 encoding을 `cp949`로 해줘야 한다는것! 처음 header를 찾는 곳을 똑똑하게 할 수 있겠지만 그닥 중요하지 않으니... 아래 코드를
f = open("/Users/Direcision/Desktop/아파트(매매)__실거래가_20191211233713.csv","r", encoding='cp949')
lines = f.readlines()
cols = lines[15][:-1]
cols = cols.split("\"")
cols = list(filter(lambda x: (x != '') & (x != ',') ,cols))
data = lines[16:]
rows = []
for d in data:
d = d[:-1].split("\"")
d = list(filter(lambda x: (x != '') & (x != ',') ,d))
rows.append(d)
df = pd.DataFrame(rows, columns=cols)
의 영상을 보니 주택거래량이 줄어들고 있다고 얘기를 하고 있다. 정말 집값은 오르는데 실제로 거래가 안되고 있을까? 유투브에서도 많은 유투버들이 집가격은 오르고 있는데 거래가 되고 있지 않다고 말한다. 어느정도 거래가 이루어졌고 올해 2019년에는 정말 거래가 많이 이루어지지 않았는지 확인을 해보자! 생각해보니 아파트 실거래 데이터가 분양받은것도 포함이 되어있나?.. 연도별 아파트 공급 물량도 확인해보면 좋을것 같다.
서울특별시 연도별 거래량을 살펴보면 아래와 같다.
년도
거래량
2016
110,222
2017
105,091
2018
81,392,
2019
52,125
약간의 누락이 있어보이긴하지만 편차가 그렇게 크지 않다... 지금 http://rtdown.molit.go.kr/ 의 사이트에서 다운받아서 살펴보니 약간의 누락이 있었다! 역시 데이터는 수집도 중요하지만 유효성 체크가 중요하다!!! 어쨋든
2016년에 비해서 2019년은 절반의 거래량이 발생했고, 2018년인 작년과 비교해도 약 36%가 줄어들었다. 집값만 오르고 정말 부동산 시장은 얼었다는 말이다. 이 빙판에서 누가 넘어지지 않느냐의 싸움이 아닌가 싶다.