발표자: 최보현

EDA란?

데이터 수집 및 정제 과정

EDA 왜 할까?

EDA의 단계?

  1. 전체적인 데이터 분석
  1. 데이터의 개별 속성값 관찰
  1. 속성 간의 관계분석

참고 자료: https://dacon.io/codeshare/4899

통계치 분석 (이상치, 결측치)에 대해 더 많은 정보를 얻고 싶으시면 위 링크에 들어가서 공부하시거나 구글링을 통해 보완하는걸 추천드립니다!

1. Problem Define

데이터 셋: https://www.kaggle.com/competitions/titanic/data

타이타닉 호 침몰 사건 당시의 사망자와 생존자를 구분하는 요인 분석을 통해, 승객들의 생존 여부를 예측해보자!

y = f(x)

y: 승객들의 생존 여부

x: 생존 여부에 영향을 미치는 요소들

2. Libraries Setting

3. Data Collection

변수의 의미

4.Data Preprocessing

데이터 shape 확인

결측치 처리

5.EDA

EDA를 통해 데이터를 좀 더 심도 있게 살펴봅시다.

info() 함수를 통해 데이터셋의 컬럼명, 행의 개수, 데이터 타입 등의 정보 확인하기

기술통계 확인하기

범주형 데이터와 생존 여부 간 관계 파악

종속변수 balance 확인

범주형 및 object type 데이터 처리

시각화를 통해 데이터 특징 파악

히트맵으로 상관관계 분석

상관관계가 높은 변수 확인

종속변수와의 상관관계 확인

수고하셨습니다 :)