In [286]:
# 필요 패키지 설치
!pip install numpy
!pip install pandas

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [287]:
# 필요 패키지 로드
import numpy as np
import pandas as pd
import seaborn as sns

# seaborn 데이터 셋 종류 확인
sns.get_dataset_names()

['anagrams',
 'anscombe',
 'attention',
 'brain_networks',
 'car_crashes',
 'diamonds',
 'dots',
 'dowjones',
 'exercise',
 'flights',
 'fmri',
 'geyser',
 'glue',
 'healthexp',
 'iris',
 'mpg',
 'penguins',
 'planets',
 'seaice',
 'taxis',
 'tips',
 'titanic']

In [288]:
# 사용할 데이터 셋 로드
df = sns.load_dataset('titanic')

# 데이터 셋 구조 확인
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-null    int64   
 1   pclass       891 non-null    int64   
 2   sex          891 non-null    object  
 3   age          714 non-null    float64 
 4   sibsp        891 non-null    int64   
 5   parch        891 non-null    int64   
 6   fare         891 non-null    float64 
 7   embarked     889 non-null    object  
 8   class        891 non-null    category
 9   who          891 non-null    object  
 10  adult_male   891 non-null    bool    
 11  deck         203 non-null    category
 12  embark_town  889 non-null    object  
 13  alive        891 non-null    object  
 14  alone        891 non-null    bool    
dtypes: bool(2), category(2), float64(2), int64(4), object(5)
memory usage: 80.7+ KB


In [289]:
# 특정열의 누락 데이터 개수 확인
print(df['age'].value_counts(dropna=False))

# isnull 메소드로 실제 누락데이터 확인 : isnull() 메소드는 값이 NaN이면 True를 반환
print('\n', df.isnull())

# notnull 메소드로 누락 데이터 확인 : not nul() 메소드는 값이 NaN이면 False를 반환
print('\n', df.notnull())

NaN      177
24.00     30
22.00     27
18.00     26
28.00     25
        ... 
36.50      1
55.50      1
0.92       1
23.50      1
74.00      1
Name: age, Length: 89, dtype: int64

      survived  pclass    sex    age  sibsp  parch   fare  embarked  class  \
0       False   False  False  False  False  False  False     False  False   
1       False   False  False  False  False  False  False     False  False   
2       False   False  False  False  False  False  False     False  False   
3       False   False  False  False  False  False  False     False  False   
4       False   False  False  False  False  False  False     False  False   
..        ...     ...    ...    ...    ...    ...    ...       ...    ...   
886     False   False  False  False  False  False  False     False  False   
887     False   False  False  False  False  False  False     False  False   
888     False   False  False   True  False  False  False     False  False   
889     False   False  False  False  False  False

In [290]:
# isnull() 메소드와 sum함수를 사용하여 각 열의 누락값 개수 확인 : sum의 axis가 0이면 참의 합을 출력해줌
print(df.isnull().sum(axis=0))

# for반복문과 value_counts를 활용하여 각 열의 누락값 개수 확인
print('\n')
for column in df.columns:
  df_values = df[column].value_counts(dropna=False)
  try:
    print(f'{column} : {df_values[np.nan]}')
  except:
    print(f'{column} : 0')

survived         0
pclass           0
sex              0
age            177
sibsp            0
parch            0
fare             0
embarked         2
class            0
who              0
adult_male       0
deck           688
embark_town      2
alive            0
alone            0
dtype: int64


survived : 0
pclass : 0
sex : 0
age : 177
sibsp : 0
parch : 0
fare : 0
embarked : 2
class : 0
who : 0
adult_male : 0
deck : 688
embark_town : 2
alive : 0
alone : 0


In [291]:
# 행기준 누락데이터 제거, axis옵션 0 : 행기준 제거 / 1 : 열기준 제거 - Default값은 0
df_dropna_01 = df.dropna(axis=0)
# NaN의 개수가 500개 이상인 열만 제거하기 위해 axis, thresh 옵션 추가
df_dropna_02 = df.dropna(axis=1, thresh=500)
# 행 기준 삭제시 특정 열의 데이터 값이 NaN인 값만 제거하도록 적용 / subset과 how를 사용
df_dropna_03 = df.dropna(axis=0, subset=['age'], how='any')

print(
      f'--------------------------------------------------------------------------------\
      \n{df.columns}\n{len(df)}\
      \n--------------------------------------------------------------------------------\
      \n\n{df_dropna_01.columns}\n{len(df_dropna_01)}\
      \n--------------------------------------------------------------------------------\
      \n{df_dropna_02.columns}\n{len(df_dropna_02)}\
      \n--------------------------------------------------------------------------------\
      \n{df_dropna_03.columns}\n{len(df_dropna_03)}\
      \n--------------------------------------------------------------------------------'
     )

--------------------------------------------------------------------------------      
Index(['survived', 'pclass', 'sex', 'age', 'sibsp', 'parch', 'fare',
       'embarked', 'class', 'who', 'adult_male', 'deck', 'embark_town',
       'alive', 'alone'],
      dtype='object')
891      
--------------------------------------------------------------------------------      

Index(['survived', 'pclass', 'sex', 'age', 'sibsp', 'parch', 'fare',
       'embarked', 'class', 'who', 'adult_male', 'deck', 'embark_town',
       'alive', 'alone'],
      dtype='object')
182      
--------------------------------------------------------------------------------      
Index(['survived', 'pclass', 'sex', 'age', 'sibsp', 'parch', 'fare',
       'embarked', 'class', 'who', 'adult_male', 'embark_town', 'alive',
       'alone'],
      dtype='object')
891      
--------------------------------------------------------------------------------      
Index(['survived', 'pclass', 'sex', 'age', 'sibsp', 'parch', '

In [292]:
# 누락 데이터 치환
# replace 함수로 치환하기 - 주의사항 : replace 함수는 categorical 자료 유형에는 적용이 안됨(int, float, string 가능)
df_chna_00 = df.copy()
df_chna_00.replace(np.nan, 0, inplace=True)
print(f'기존 값 : {df.isnull().sum()}\n\n변경 값 : {df_chna_00.isnull().sum()}\n')

# 평균으로 치환하기
df_chna_01 = df.copy()
mean_age = df['age'].mean(axis=0)
df_chna_01['age'].fillna(mean_age, inplace=True)
print(f'기존 값 : {df["age"].isnull().sum()} / 변경 값 : {df_chna_01["age"].isnull().sum()}')

# 빈도수가 가장 높은 값으로 치환
df_chna_02 = df.copy()
most_freq = df['embark_town'].value_counts(dropna=True).idxmax(axis=0)
df_chna_02['embark_town'].fillna(most_freq, inplace=True)
print(f'기존 값 : {df["embark_town"].isnull().sum()} / 변경 값 : {df_chna_02["embark_town"].isnull().sum()}')

# 서로 이웃하고 있는 값으로 바꾸기
df_chna_03 = df.copy()
df_chna_03['embark_town'].fillna(method='ffill', inplace=True)
print(f'기존 값 : {df["embark_town"].isnull().sum()} / 변경 값 : {df_chna_03["embark_town"].isnull().sum()}')

기존 값 : survived         0
pclass           0
sex              0
age            177
sibsp            0
parch            0
fare             0
embarked         2
class            0
who              0
adult_male       0
deck           688
embark_town      2
alive            0
alone            0
dtype: int64

변경 값 : survived         0
pclass           0
sex              0
age              0
sibsp            0
parch            0
fare             0
embarked         0
class            0
who              0
adult_male       0
deck           688
embark_town      0
alive            0
alone            0
dtype: int64

기존 값 : 177 / 변경 값 : 0
기존 값 : 2 / 변경 값 : 0
기존 값 : 2 / 변경 값 : 0


In [293]:
# 중복데이터 확인 및 처리
'''
duplicated() 메소드는 전에 나온 행들과 현재 행의 값을 비교하여 중복되는 행이면
True를 아니면 False를 반환함. 즉, 처음 나온행은 True 그 이후에 추가로 나온 행은 False를 반환함.
'''
df_dup_00 = df['class'].head().duplicated()
print(df_dup_00, '\n')

# 중복데이터 제거 - 기준으로 할 열을 설정하고 싶으면 subset 옵션 사용
df_dup_01 = df['class'].head().drop_duplicates()
print(df_dup_01)

0    False
1    False
2     True
3     True
4     True
Name: class, dtype: bool 

0    Third
1    First
Name: class, dtype: category
Categories (3, object): ['First', 'Second', 'Third']


In [294]:
'''
* 데이터 표준화
- 다양한 소스에서 다른 사람들에 의해 수집되는 데이터들은 단위, 대소문자, 약칭 등의
이유로 인해 각기 다른 형태로 표현됨. 표현방식의 차이는 분석의 정확도 저하에 직접적인
영향을 미치기 때문에 일관성있게 표준화하는 과정이 필요함
'''
# 단위환산
df_plus = sns.load_dataset('mpg')
# mile per gallon을 kilometoer per liter로 치환
t_value = 1.60934/3.78541
df_plus['kpl'] = df_plus['mpg']*t_value
df_plus.head()

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model_year,origin,name,kpl
0,18.0,8,307.0,130.0,3504,12.0,70,usa,chevrolet chevelle malibu,7.652571
1,15.0,8,350.0,165.0,3693,11.5,70,usa,buick skylark 320,6.377143
2,18.0,8,318.0,150.0,3436,11.0,70,usa,plymouth satellite,7.652571
3,16.0,8,304.0,150.0,3433,12.0,70,usa,amc rebel sst,6.802286
4,17.0,8,302.0,140.0,3449,10.5,70,usa,ford torino,7.227428


In [295]:
# 자료형 변환 - 예시 : 숫자로 이루어진 데이터가 object형과 같이 문자로 저장되어 있다면 해당 자료형은 변경해주어야함.
df_plus_tt_00 = df_plus.copy()
df_plus_tt_00['horsepower'] = df_plus_tt_00['horsepower'].astype('object')
print(df_plus_tt_00['horsepower'].dtypes)
df_plus_tt_00['horsepower'] = df_plus_tt_00['horsepower'].astype('float')
print(df_plus_tt_00['horsepower'].dtypes)

object
float64


In [296]:
# 범주형(카테고리) 데이터 처리 : 연속변수를 일정한 구간으로 나누고, 각 구간을 범주형 이산변수로 변환하는 과정을 구간분할이라고 함.
# np.histogram 함수로 3개의 bin으로 구분할 경계값 리스트 구하기
df_plus_tt_01 = df_plus.copy()
df_plus_tt_01.dropna(subset=['horsepower'], axis=0, inplace=True)
# df_plus_tt_01[np.isfinite(df_plus_tt_01['horsepower'])] # NaN 또는 INF값 여부 확인
df_plus_tt_01.dropna(axis=0, inplace=True)
count, bin_divider = np.histogram(df_plus_tt_01['horsepower'], bins=3)
bin_names = ['Low', 'Medium', 'High']

print(bin_divider, '\n')
# cut함수로 각 데이터에 3개의 bin 할당
df_plus_tt_01['hp_bin'] = pd.cut(
                                    x=df_plus_tt_01['horsepower']
                                  , bins=bin_divider
                                  , labels=bin_names
                                   , include_lowest=True
                     )
print(df_plus_tt_01[['horsepower', 'hp_bin']].head(20))

[ 46.         107.33333333 168.66666667 230.        ] 

    horsepower  hp_bin
0        130.0  Medium
1        165.0  Medium
2        150.0  Medium
3        150.0  Medium
4        140.0  Medium
5        198.0    High
6        220.0    High
7        215.0    High
8        225.0    High
9        190.0    High
10       170.0    High
11       160.0  Medium
12       150.0  Medium
13       225.0    High
14        95.0     Low
15        95.0     Low
16        97.0     Low
17        85.0     Low
18        88.0     Low
19        46.0     Low


In [297]:
'''
* 더미변수(dummy variable)의 개념과 사용방법
- 카테고리를 나타내는 범주형 데이터를 회귀분석 등 머신러닝 알고리즘에 사용하기 위해서는 컴퓨터가 인식가능한
값으로 변경 해주어야함. 이 경우 0또는 1로 표현되는 더미변수를 사용하며, 이 경우 0과 1은 크고 작음의 의미는 없고
단순히 어떤 특성이 있는지 여부만 표시함.
- 범주형 데이터를 컴퓨터가 인식할 수 있도록 0과 1로만 구성되는 원핫벡터(one hot vector)로 변환한다고 하여
원핫인코딩(one-hot-encoding)이라고도 부름.
- get_dummies()함수를 보편적으로 사용하며, 해당 함수를 사용시 범주형 변수의 모든 고유값을 각각 새로운 더미 변수로 변환함.
- sklearn 라이브러리를 추가사용하여 원핫 인코딩을 진행할 수도 있음.
'''
hp_dummies = pd.get_dummies(df_plus_tt_01['hp_bin'])
print(hp_dummies)

# sklearn 패키지 로드
import sklearn

# 전처리를 위한 encoder 객체 생성-
label_encoder = sklearn.preprocessing.LabelEncoder()
onehot_encoder = sklearn.preprocessing.OneHotEncoder()

# label encoder로 문자형 범주를 숫자형 범주로 변환
onehot_labeled = label_encoder.fit_transform(df_plus_tt_01['hp_bin'].head(15))
print(f'{onehot_labeled} / {type(onehot_labeled)}\n')

# 2차원 행렬로 변경
onehot_reshaped = onehot_labeled.reshape(len(onehot_labeled), 1)
print(f'{onehot_reshaped}\n{type(onehot_reshaped)}\n')

# 희소행렬로 변환
onehot_fitted = onehot_encoder.fit_transform(onehot_reshaped)
print(f'{onehot_fitted}\n{type(onehot_fitted)}')

     Low  Medium  High
0      0       1     0
1      0       1     0
2      0       1     0
3      0       1     0
4      0       1     0
..   ...     ...   ...
393    1       0     0
394    1       0     0
395    1       0     0
396    1       0     0
397    1       0     0

[392 rows x 3 columns]
[2 2 2 2 2 0 0 0 0 0 0 2 2 0 1] / <class 'numpy.ndarray'>

[[2]
 [2]
 [2]
 [2]
 [2]
 [0]
 [0]
 [0]
 [0]
 [0]
 [0]
 [2]
 [2]
 [0]
 [1]]
<class 'numpy.ndarray'>

  (0, 2)	1.0
  (1, 2)	1.0
  (2, 2)	1.0
  (3, 2)	1.0
  (4, 2)	1.0
  (5, 0)	1.0
  (6, 0)	1.0
  (7, 0)	1.0
  (8, 0)	1.0
  (9, 0)	1.0
  (10, 0)	1.0
  (11, 2)	1.0
  (12, 2)	1.0
  (13, 0)	1.0
  (14, 1)	1.0
<class 'scipy.sparse._csr.csr_matrix'>


In [298]:
'''
* 정규화(Normalization)의 개념과 사용방법
- 숫자데이터의 상대적인 크기 차이는 머신러닝 분석결과가 달라질 수 있기에 해당 차이를 제거할 필요가 있음
예를 들어 A변수의 범위가 0~1000이고 B변수의 범위가 0~1이면 B변수보다 A변수의 영향이 더 커지게 됨.
각 열(변수)에 속하는 데이터 값을 동일크기 기준으로 나눈 비율로 나타내는 것을 정규화라고 지칭함.
- 가장 간편하게 할 수 있는 정규화는 Min-Max 정규화가 있으며, 수식으로 직접 구현해도 되고, 패키지를 불러와서
내부 함수를 사용해도 됨.
'''

df_plus_x = df_plus['horsepower'] - df_plus['horsepower'].min()
min_max = df_plus['horsepower'].max() - df_plus['horsepower'].min()
df_plus_minmax1 = df_plus_x / min_max

# 필요패키지 로드
import sklearn

mm_scaler = sklearn.preprocessing.MinMaxScaler()
df_plus_minmax2 = pd.DataFrame(mm_scaler.fit_transform(df_plus[['horsepower']]), columns=['horsepower'])
print(df_plus_minmax1.describe(), '\n\n',df_plus_minmax2.describe())

count    392.000000
mean       0.317768
std        0.209191
min        0.000000
25%        0.157609
50%        0.258152
75%        0.434783
max        1.000000
Name: horsepower, dtype: float64 

        horsepower
count  392.000000
mean     0.317768
std      0.209191
min      0.000000
25%      0.157609
50%      0.258152
75%      0.434783
max      1.000000


In [299]:
# 시계열 데이터
# 문자열을 시계열 데이터로 변환 : to_datetime()함수 사용

df_dow = sns.load_dataset('dowjones')
df_dow['Date'] = df_dow['Date'].astype('object')
df_dow['New_Date'] = pd.to_datetime(df_dow['Date'])
print(df_dow.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 649 entries, 0 to 648
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype         
---  ------    --------------  -----         
 0   Date      649 non-null    object        
 1   Price     649 non-null    float64       
 2   New_Date  649 non-null    datetime64[ns]
dtypes: datetime64[ns](1), float64(1), object(1)
memory usage: 15.3+ KB
None


In [300]:
# Timestamp를 Period로 변환
'''
* to_period 함수의 freq 종류
- D : day
- W : week
- M : month end
- MS : month start
- Q : quarter_end
- QS : quarter start
- A : year end
- AS : year start
- B : business day(휴일제외)
- H : hour
- T : minute
- S : Second
- L : millisecond
- U : microsecond
- N : nanosecond
'''
ts_dates = pd.to_datetime(list(df_dow['New_Date']))
ts_day = ts_dates.to_period(freq='D')
ts_month = ts_dates.to_period(freq='M')
ts_year = ts_dates.to_period(freq='A')
print(f'{ts_day}\n{ts_month}\n{ts_year}')

PeriodIndex(['1914-12-01', '1915-01-01', '1915-02-01', '1915-03-01',
             '1915-04-01', '1915-05-01', '1915-06-01', '1915-07-01',
             '1915-08-01', '1915-09-01',
             ...
             '1968-03-01', '1968-04-01', '1968-05-01', '1968-06-01',
             '1968-07-01', '1968-08-01', '1968-09-01', '1968-10-01',
             '1968-11-01', '1968-12-01'],
            dtype='period[D]', length=649)
PeriodIndex(['1914-12', '1915-01', '1915-02', '1915-03', '1915-04', '1915-05',
             '1915-06', '1915-07', '1915-08', '1915-09',
             ...
             '1968-03', '1968-04', '1968-05', '1968-06', '1968-07', '1968-08',
             '1968-09', '1968-10', '1968-11', '1968-12'],
            dtype='period[M]', length=649)
PeriodIndex(['1914', '1915', '1915', '1915', '1915', '1915', '1915', '1915',
             '1915', '1915',
             ...
             '1968', '1968', '1968', '1968', '1968', '1968', '1968', '1968',
             '1968', '1968'],
            dtype=

In [301]:
# Timestamp 배열 만들기
dates_01 = pd.date_range(
                         start='2021-01-01'# 날짜 범위 시작
                       , end=None # 날짜범위 끝
                       , periods=6 # 생성할 Timestamp 수
                       , freq='MS' # 시간간격
                       , tz='Asia/Seoul' # 시간대(timezone)
                        )

dates_02 = pd.date_range(
                         start='2021-01-01'# 날짜 범위 시작
                       , end=None # 날짜범위 끝
                       , periods=6 # 생성할 Timestamp 수
                       , freq='M' # 시간간격
                       , tz='Asia/Seoul' # 시간대(timezone)
                        )

dates_03 = pd.date_range(
                         start='2021-01-01'# 날짜 범위 시작
                       , end=None # 날짜범위 끝
                       , periods=6 # 생성할 Timestamp 수
                       , freq='3M' # 시간간격
                       , tz='Asia/Seoul' # 시간대(timezone)
                        )

print(dates_01, '\n\n', dates_02, '\n\n', dates_03, '\n\n')

dates_04 = pd.period_range(
                            start='2021-01-01'# 날짜 범위 시작
                          , end=None # 날짜범위 끝
                          , periods=6 # 생성할 Timestamp 수
                          , freq='M' # 시간간격
                          )

print(dates_04, '\n\n')

DatetimeIndex(['2021-01-01 00:00:00+09:00', '2021-02-01 00:00:00+09:00',
               '2021-03-01 00:00:00+09:00', '2021-04-01 00:00:00+09:00',
               '2021-05-01 00:00:00+09:00', '2021-06-01 00:00:00+09:00'],
              dtype='datetime64[ns, Asia/Seoul]', freq='MS') 

 DatetimeIndex(['2021-01-31 00:00:00+09:00', '2021-02-28 00:00:00+09:00',
               '2021-03-31 00:00:00+09:00', '2021-04-30 00:00:00+09:00',
               '2021-05-31 00:00:00+09:00', '2021-06-30 00:00:00+09:00'],
              dtype='datetime64[ns, Asia/Seoul]', freq='M') 

 DatetimeIndex(['2021-01-31 00:00:00+09:00', '2021-04-30 00:00:00+09:00',
               '2021-07-31 00:00:00+09:00', '2021-10-31 00:00:00+09:00',
               '2022-01-31 00:00:00+09:00', '2022-04-30 00:00:00+09:00'],
              dtype='datetime64[ns, Asia/Seoul]', freq='3M') 


PeriodIndex(['2021-01', '2021-02', '2021-03', '2021-04', '2021-05', '2021-06'], dtype='period[M]') 


