In [1]:
# Pandas 설치
!pip install pandas

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [2]:
# Pandas 로드
import pandas as pd

# 테이블 생성
exam_result = {
                'Name' : ['John', 'Anne', 'Jacob']
              , 'Math' : [90, 75, 100]
              , 'English' : [100, 80, 95]
              , 'Music' : [80, 100, 60]
              , 'Athletic' : [80, 70, 85]
              }
df = pd.DataFrame(exam_result)

# 특정 열을 행 인덱스로 설정
df1 = df.copy()
df2 = df.copy()
df3 = df.copy()

df1.set_index(['Name'], inplace=True)
df2.set_index(['Math'], inplace=True)
df3.set_index(['Music'], inplace=True)

# 결과 출력
print(f'{df}\n\n{df1}\n\n{df2}\n\n{df3}')

    Name  Math  English  Music  Athletic
0   John    90      100     80        80
1   Anne    75       80    100        70
2  Jacob   100       95     60        85

       Math  English  Music  Athletic
Name                                 
John     90      100     80        80
Anne     75       80    100        70
Jacob   100       95     60        85

       Name  English  Music  Athletic
Math                                 
90     John      100     80        80
75     Anne       80    100        70
100   Jacob       95     60        85

        Name  Math  English  Athletic
Music                                
80      John    90      100        80
100     Anne    75       80        70
60     Jacob   100       95        85


In [3]:
# 행 인덱스 재배열
new_index = [i for i in range(5)]
ndf = df.reindex(new_index)
ndf2 = df.reindex(new_index, fill_value=0)

# 결과 출력
print(f'{df}\n\n{ndf}\n\n{ndf2}')

    Name  Math  English  Music  Athletic
0   John    90      100     80        80
1   Anne    75       80    100        70
2  Jacob   100       95     60        85

    Name   Math  English  Music  Athletic
0   John   90.0    100.0   80.0      80.0
1   Anne   75.0     80.0  100.0      70.0
2  Jacob  100.0     95.0   60.0      85.0
3    NaN    NaN      NaN    NaN       NaN
4    NaN    NaN      NaN    NaN       NaN

    Name  Math  English  Music  Athletic
0   John    90      100     80        80
1   Anne    75       80    100        70
2  Jacob   100       95     60        85
3      0     0        0      0         0
4      0     0        0      0         0


In [4]:
# 행 인덱스 초기화
ndf3 = df.reset_index()

print(f'{df}\n\n{ndf3}')

    Name  Math  English  Music  Athletic
0   John    90      100     80        80
1   Anne    75       80    100        70
2  Jacob   100       95     60        85

   index   Name  Math  English  Music  Athletic
0      0   John    90      100     80        80
1      1   Anne    75       80    100        70
2      2  Jacob   100       95     60        85


In [5]:
# 행 인덱스 기준으로 데이터 프레임 정렬
ndf4 = df.sort_index() # 기본 정렬 default는 ascending(오름차순)
ndf5 = df.sort_index(ascending=False) # 내림차순 적용

print(f'{ndf4}\n\n{ndf5}')

    Name  Math  English  Music  Athletic
0   John    90      100     80        80
1   Anne    75       80    100        70
2  Jacob   100       95     60        85

    Name  Math  English  Music  Athletic
2  Jacob   100       95     60        85
1   Anne    75       80    100        70
0   John    90      100     80        80


In [6]:
# 열 기준 정렬
ndf6 = df.sort_values(by=['Math', 'English']) # by 옵션으로 기준열 지정 / 복수 지정 가능
ndf7 = df.sort_values(by='Math', ascending=True)

print(f'{ndf6}\n\n{ndf7}')

    Name  Math  English  Music  Athletic
1   Anne    75       80    100        70
0   John    90      100     80        80
2  Jacob   100       95     60        85

    Name  Math  English  Music  Athletic
1   Anne    75       80    100        70
0   John    90      100     80        80
2  Jacob   100       95     60        85


In [7]:
# 산술연산
'''
* 시리즈 연산
- 시리즈와 숫자의 연산
사칙연산이 기본적으로 가능하며, 모든 원소들에 각각 연산이 들어가는 형태로 계산됨.
- 시리즈와 시리즈의 연산
사칙연산이 기본적으로 가능하며, 각 시리즈의 인덱스를 기준으로 같은 인덱스를 가진 값들이 서로 매칭되어 계산됨.
만약 연산을 하는 두 시리즈의 원소의 개수, 인덱스 값이 다르면 정상적인 연산이 불가능하며, 이때 매칭되지 않은 값들은
NaN으로 처리됨. 만약 값이 모두 존재하여 매칭이 된다해도 한 쪽의 값이 NaN이면 결과가 NaN으로 입력됨.
'''
# 시리즈 생성
student = pd.Series({'Korean' : 90, 'Math' : 85, 'English' : 95})
addition = student+5
subtraction = student-5
multiplication = student*2
division = student/2

# print문 사용시 코드가 길어서 가독성을 위해 줄바꿔서 표기하고 싶으면 줄바꾸는 위치에 백슬래쉬(\)를 써서 적용가능
print(
      f'--------------------------------------------------------------------------------\
      \n{student}\n\n{addition}\n\n{subtraction}\n\n{multiplication}\n\n{division}\
      \n--------------------------------------------------------------------------------'
     )

# 추가 시리즈 생성
student2 = pd.Series({'Korean' : 80, 'Math' : 100, 'English' : 90})
addition2 = student+student2
subtraction2 = student-student2
multiplication2 = student*student2
division2 = student/student2

print(
      f'--------------------------------------------------------------------------------\
      \n{addition2}\n\n{subtraction2}\n\n{multiplication2}\n\n{division2}\
      \n--------------------------------------------------------------------------------'
     )

# 계산결과를 데이터프레임으로 합치기
result = pd.DataFrame(
                      [addition2, subtraction2, multiplication2, division2]
                    , index=['addition', 'subtraction', 'multiplication', 'division']
                    , columns=['Korean', 'Math', 'English']
                     )

print(
      f'--------------------------------------------------------------------------------\
      \n{result}\
      \n--------------------------------------------------------------------------------'
     )

--------------------------------------------------------------------------------      
Korean     90
Math       85
English    95
dtype: int64

Korean      95
Math        90
English    100
dtype: int64

Korean     85
Math       80
English    90
dtype: int64

Korean     180
Math       170
English    190
dtype: int64

Korean     45.0
Math       42.5
English    47.5
dtype: float64      
--------------------------------------------------------------------------------
--------------------------------------------------------------------------------      
Korean     170
Math       185
English    185
dtype: int64

Korean     10
Math      -15
English     5
dtype: int64

Korean     7200
Math       8500
English    8550
dtype: int64

Korean     1.125000
Math       0.850000
English    1.055556
dtype: float64      
--------------------------------------------------------------------------------
--------------------------------------------------------------------------------      
                  Ko

In [8]:
# NaN 처리를 위한 추가 패키지 설치시
!pip install numpy

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [9]:
# 필요 패키지 로드
import numpy as np

# NaN이 있는 시리즈 연산
# NaN : 유효한 값이 존재하지 않는다는 의미
# 시리즈 생성
student1 = pd.Series({'Korean' : 90, 'Math' : 85, 'English' : 100})
student2 = pd.Series({'Korean' : 80, 'Math' : 100, 'English' : np.nan})

addition3 = student1+student2
subtraction3 = student1-student2
multiplication3 = student1*student2
division3 = student1/student2

print(
      f'--------------------------------------------------------------------------------\
      \n{addition3}\n\n{subtraction3}\n\n{multiplication3}\n\n{division3}\
      \n--------------------------------------------------------------------------------'
     )

# 연산 메소드를 활용하여 NaN값 채워넣기
'''
Pandas에서 제공하는 사칙연산 메소드
add : 덧셈
sub : 뺄셈
mul : 곱셈
div : 나눗셈
'''
addition4 = student1.add(student2, fill_value=0)
subtraction4 = student1.sub(student2, fill_value=0)
multiplication4 = student1.mul(student2, fill_value=0)
division4 = student1.div(student2, fill_value=0)

print(
      f'--------------------------------------------------------------------------------\
      \n{addition4}\n\n{subtraction4}\n\n{multiplication4}\n\n{division}\
      \n--------------------------------------------------------------------------------'
     )

--------------------------------------------------------------------------------      
Korean     170.0
Math       185.0
English      NaN
dtype: float64

Korean     10.0
Math      -15.0
English     NaN
dtype: float64

Korean     7200.0
Math       8500.0
English       NaN
dtype: float64

Korean     1.125
Math       0.850
English      NaN
dtype: float64      
--------------------------------------------------------------------------------
--------------------------------------------------------------------------------      
Korean     170.0
Math       185.0
English    100.0
dtype: float64

Korean      10.0
Math       -15.0
English    100.0
dtype: float64

Korean     7200.0
Math       8500.0
English       0.0
dtype: float64

Korean     45.0
Math       42.5
English    47.5
dtype: float64      
--------------------------------------------------------------------------------


In [10]:
'''
* loc와 iloc로 추출할때 유의사항
- loc는 로우와 컬럼의 이름으로 추출하며 양끝단의 데이터를 모두 포함하게 됨.
- iloc는 로우와 컬럼의 인덱스 번호로 추출하며 마지막 단의 데이터는 추출하지 않음
- dataframe.loc[0:1, :]과 dataframe.iloc[0:1, :]은 값이 다르게 출력됨.
'''
df = pd.DataFrame([[0, 0, 0], [1, 1, 1], [2, 2, 2]], columns=[0, 1, 2])
print(
      f'--------------------------------------------------------------------------------\
      \n{df.loc[0:1, :]}\n\n{df.iloc[0:1, :]}\
      \n--------------------------------------------------------------------------------\
      \n{df.loc[:, 0:1]}\n\n{df.iloc[:, 0:]}\
      \n--------------------------------------------------------------------------------'
     )

--------------------------------------------------------------------------------      
   0  1  2
0  0  0  0
1  1  1  1

   0  1  2
0  0  0  0      
--------------------------------------------------------------------------------      
   0  1
0  0  0
1  1  1
2  2  2

   0  1  2
0  0  0  0
1  1  1  1
2  2  2  2      
--------------------------------------------------------------------------------


In [11]:
'''
* 데이터프레임 연산
- 데이터프레임과 숫자의 연산
사칙연산이 기본적으로 가능하며, 모든 원소들에 각각 연산이 들어가는 형태로 계산됨.
- 데이터프레임와 데이터프레임의 연산
사칙연산이 기본적으로 가능하며, 각 데이터프레임의 인덱스를 기준으로 같은 인덱스를 가진 값들이 서로 매칭되어 계산됨.
만약 연산을 하는 두 데이터프레임의 원소의 개수, 인덱스 값이 다르면 정상적인 연산이 불가능하며, 이때 매칭되지 않은 값들은
NaN으로 처리됨. 만약 값이 모두 존재하여 매칭이 된다해도 한 쪽의 값이 NaN이면 결과가 NaN으로 입력됨.
'''
# 간편하게 사용할 수 있는 대표적인 데이터를 다운로드
import seaborn as sns
titanic = sns.load_dataset('titanic')

# head함수로 데이터 값을 간단하게 확인가능 따로 파라미터를 주지 않으면 5개행만 출력
print(
      f'--------------------------------------------------------------------------------\
      \n{titanic.head(10)}\
      \n--------------------------------------------------------------------------------'
     )

# 필요한 컬럼만 추출
ext_ttc = titanic.loc[:, ['age', 'fare']]
add = ext_ttc.head() + 5
sub = ext_ttc.head() - 5
mul = ext_ttc.head() * 5
div = ext_ttc.head() / 5

print(
      f'--------------------------------------------------------------------------------\
      \n{add}\n\n{sub}\n\n{mul}\n\n{div}\
      \n--------------------------------------------------------------------------------'
     )

--------------------------------------------------------------------------------      
   survived  pclass     sex   age  sibsp  parch     fare embarked   class  \
0         0       3    male  22.0      1      0   7.2500        S   Third   
1         1       1  female  38.0      1      0  71.2833        C   First   
2         1       3  female  26.0      0      0   7.9250        S   Third   
3         1       1  female  35.0      1      0  53.1000        S   First   
4         0       3    male  35.0      0      0   8.0500        S   Third   
5         0       3    male   NaN      0      0   8.4583        Q   Third   
6         0       1    male  54.0      0      0  51.8625        S   First   
7         0       3    male   2.0      3      1  21.0750        S   Third   
8         1       3  female  27.0      0      2  11.1333        S   Third   
9         1       2  female  14.0      1      0  30.0708        C  Second   

     who  adult_male deck  embark_town alive  alone  
0    man   

In [29]:
ext_ttc_01 = ext_ttc.iloc[:6, :].fillna(0)
ext_ttc_02 = ext_ttc.iloc[6:12, :].reset_index(drop=True).fillna(0)
'''
* 유의사항
데이터 프레임 연산을 위한 인덱스를 맞춰줄 때에는 반드시 로우와 컬럼의 인덱스를 동일한 이름으로
맞춰줘야 연산이 가능함. 위의 경우에 있어서 reset_index를 안하게 되면 로우의 인덱스 명이 0~5, 6~10으로
차이가 나게되어 전부 NaN으로 표기됨. reset_index 사용시 drop=True옵션을 주게되면 자동으로 기존의 인덱스
컬럼은 삭제되게됨. fillna함수를 사용하여 결측값들을 특정값으로 대체할 수 있음.
'''
add2 = ext_ttc_01 + ext_ttc_02
sub2 = ext_ttc_01 - ext_ttc_02
mul2 = ext_ttc_01 * ext_ttc_02
div2 = ext_ttc_01 / ext_ttc_02

print(
      f'--------------------------------------------------------------------------------\
      \n{add2}\n\n{sub2}\n\n{mul2}\n\n{div2}\
      \n--------------------------------------------------------------------------------'
     )

    age     fare
0  22.0   7.2500
1  38.0  71.2833
2  26.0   7.9250
3  35.0  53.1000
4  35.0   8.0500
5   0.0   8.4583
--------------------------------------------------------------------------------      
    age     fare
0  76.0  59.1125
1  40.0  92.3583
2  53.0  19.0583
3  49.0  83.1708
4  39.0  24.7500
5  58.0  35.0083

    age     fare
0 -32.0 -44.6125
1  36.0  50.2083
2  -1.0  -3.2083
3  21.0  23.0292
4  31.0  -8.6500
5 -58.0 -18.0917

      age         fare
0  1188.0   376.003125
1    76.0  1502.295547
2   702.0    88.231403
3   490.0  1596.759480
4   140.0   134.435000
5     0.0   224.567865

         age      fare
0   0.407407  0.139793
1  19.000000  3.382363
2   0.962963  0.711828
3   2.500000  1.765833
4   8.750000  0.482036
5   0.000000  0.318580      
--------------------------------------------------------------------------------
