주제 : 국가별 기대 수명을 예측해보자!¶

총 문제는 100점 만점을 기준으로 70점 이상 맞추어야 과제로 인정됩니다. 문제에 적혀있겠지만, 이유를 적어햐 하는 문제는 왜 그렇게 풀어야한다고 생각하는지를 적어주시면 됩니다!

변수 설명

Country : 나라

Year : 연도

Status : 상태

Population : 인구

Hepatitis B : B형 간염 예방접종을 맞은 1세 비율

Measles : 인구 1000명 당 보고된 홍역 환자 수

Polio : 소아마비 예방접종을 맞은 1세 비율

Diphtheria : 디프테리아 예방접종을 맞은 1세 비율

HIV/AIDS : 인구 1000명 당 AIDS로 인해 사망한 4세 이하의 사망자 수

infant deaths : 인구 1000명 당 유아(2개월~1살) 사망자 수

under-five deaths : 인구 1000명 당 5세 미만 사망자 수

Total expenditure : 정부의 총 지출 비용 중 medical-health의 비율

GDP : 국내 총 생산

BMI : 국가 전체 인구의 평균 체질량 지수

thinness 1-19 years : 19세에 나타나는 마름 정도 비율

Alcohol : 15세 이상 사람들이 알콜 소비량(리터기준)

Schooling : 사람들이 공부한 총 년수

Life expectancy : 국가별 기대수명

In [ ]:
# 데이터 불러오기 및 상위 5개 행이 보이도록 출력하세요.
# 변수명은 df로 통일합니다.
In [ ]:
# shape 확인하세요.
In [ ]:
# 각 변수들의 형태와 결측치가 있는지 확인하세요.
In [ ]:
# 각 컬럼별 결측치 개수를 확인하세요.
In [ ]:
# 한 나라의 특정 행의 데이터가 모두 비어있는 경우는 삭제해주세요. (10점)
In [ ]:
# 결측치가 있는 행들을 살펴보고, 어떤 특징이 있는지 찾아보고 이러한 특징이 나타나는 자료를 시각화 해주세요. (20점)
In [ ]:
# 결측치가 있는 행들을 어떻게 전처리하고, 이렇게 전처리를 진행한 이유를 서술하세요. 자세히 적어주세요! (20점)
In [ ]:
# 기초통계량을 출력하세요.
In [ ]:
# object형의 기초통계량을 출력하세요.
In [ ]:
# 중복된 데이터가 있는지 확인하고, 있다면 제거해주세요.(5점)
In [ ]:
# object 형 데이터를 수치형으로 변환해주세요(레이블 인코딩). (5점)
In [ ]:
# 히스토그램을 이용해 종속변수를 분포를 시각화 해 주세요.(5점)
In [ ]:
# 개발도상국과 선진국의 종속변수를 꺽은선 그래프를 그려 한눈에 비교할 수 있도록 시각화 하세요. (5점)
In [ ]:
# 히스토그램을 이용해 독립변수 분포를 확인하고 그래프의 형태가 정규분포 모양을 따르는지, 만약에 따르지 않다면 어떻게 해야하는지 서술하시오. (단, bins = 10으로 통일합니다.)(10점)
In [ ]:
# 히트맵을 시각화하고 시각화 결과를 해석하시오. (10점)
In [ ]:
# 이 경우에는 어떤 모델을 사용하면 좋을지를 이유와 함께 서술해주세요.(10점)