주제 : 보스턴 주택 가격을 예측해보자!¶

총 문제는 100점 만점을 기준으로 70점 이상 맞추어야 과제로 인정됩니다. 문제에 적혀있겠지만, 이유를 적어햐 하는 문제는 왜 그렇게 풀어야한다고 생각하는지를 적어주시면 됩니다!

변수 설명

TOWN: 소속 도시 이름

LON, LAT: 해당 지역의 경도, 위도 데이터

CMEDV: 해당 지역의 주택 가격의 중앙값

CRIM: 지역 범죄율

ZN: 소속 도시에 25,000 제곱 피트(sq.ft) 이상의 주택지 비율

INDUS: 소속 도시에 상업적 비즈니스에 활용되지 않는 농지 면적

CHAS: 해당 지역이 Charles 강과 접하고 있는지 여부

NOX: 소속 도시의 산화질소 농도

RM: 해당 지역의 주택당 평균 방 갯수

AGE: 해당 지역에 1940년 이전에 건설된 주택의 비율

DIS: 5개의 보스턴 고용 센터와의 거리에 따른 가중치 부여

RAD: 소속 도시가 고속도로와의 접근성 지수

TAX: 소속 도시의 10,000달러당 재산세

PTRATIO: 소속 도시의 학생-교사 비율

B: 방정식 B=1000(Bk - 0.63)^2의 결과 여기서 Bk는 마을별 흑인 비율

LSTAT: 해당 지역의 빈곤층 비율

In [ ]:
# 데이터 불러오기 및 상위 5개 행이 보이도록 출력하세요.
# 변수명은 df로 통일합니다.
In [ ]:
# shape 확인하세요.
In [ ]:
# 각 변수들의 형태와 결측치가 있는지 확인하세요.
In [ ]:
# 각 컬럼별 결측치 개수를 확인하세요.
In [ ]:
# 기초통계량을 출력하세요.
In [ ]:
# object형의 기초통계량을 출력하세요.
In [ ]:
# 중복 데이터가 존재하는지 확인하고, 있다면 제거해주세요.(10점)
In [ ]:
# object 형 데이터를 수치형으로 변환해주세요(인코딩). (10점)
In [ ]:
# 히스토그램을 이용해 종속변수를 분포를 시각화 해 주세요.(10점)
In [ ]:
# 히스토그램을 이용해 독립변수 분포를 확인하고 그래프의 형태가 정규분포 모양을 따르는지, 만약에 따르지 않다면 어떻게 해야하는지 서술하시오. (단, bins은 10으로 통일해주세요.) (20점)
In [ ]:
# scatter을 이용해 종속변수를 y축에, 영향을 많이 준다고 생각하는 변수를 뽑아 x축에 넣어 시각화 하시오. (15점)
In [ ]:
# 히트맵을 시각화하고 시각화 결과를 해석하시오. (20점)
In [ ]:
# 여기서 시각화 한 히스토그램, scatter, 히트맵을 제외한 다른 그래프들을 자유롭게 시각화 해 보고, 그 중 유의미한 인사이트를 가지는 그래프를 하나 뽑아 시각화하고 어떤 인사이트를 가지고 있는지 서술하시오.(15점)