## 02. 테이블 = DataFrame

### 이번 실습에서는 다음 내용들을 배웁니다.


- pandas의 기본 구조인 DataFrame을 이해하고, pandas에 대한 다양한 데이터 처리 기능에 대해 배웁니다.


- 파이썬에서 엑셀 데이터를 사용하는 방법에 대해 배웁니다.

In [2]:
# pandas 라이브러리를 불러옵니다. pd를 약칭으로 사용합니다.
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

- DataFrame은 2차원 테이블이고, 테이블의 한 줄(행/열)을 Series라고 합니다.


- Series의 모임이 곧, DataFrame이 됩니다.

In [3]:
# s는 1, 3, 5, 6, 8을 원소로 가지는 pandas.Series
pd.Series([1,3,5,6,8])

0    1
1    3
2    5
3    6
4    8
dtype: int64

In [4]:
# 12x4 행렬에 1부터 48까지의 숫자를 원소를 가지고, index는 0부터 시작하고, coulmns은 순서대로 X1, X2, X3, X4로 하는 DataFrame 생성
df = pd.DataFrame(data= np.arange(1,49).reshape(12,4),
                 columns = ["x1","x2","x3","x4"])
df

Unnamed: 0,x1,x2,x3,x4
0,1,2,3,4
1,5,6,7,8
2,9,10,11,12
3,13,14,15,16
4,17,18,19,20
5,21,22,23,24
6,25,26,27,28
7,29,30,31,32
8,33,34,35,36
9,37,38,39,40


In [5]:
# dataframe index
df.index

RangeIndex(start=0, stop=12, step=1)

In [6]:
# dataframe columns
df.columns

Index(['x1', 'x2', 'x3', 'x4'], dtype='object')

In [7]:
# dataframe values
df.values

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12],
       [13, 14, 15, 16],
       [17, 18, 19, 20],
       [21, 22, 23, 24],
       [25, 26, 27, 28],
       [29, 30, 31, 32],
       [33, 34, 35, 36],
       [37, 38, 39, 40],
       [41, 42, 43, 44],
       [45, 46, 47, 48]])

In [8]:
# 특정 column을 가져오기
df["x1"]

0      1
1      5
2      9
3     13
4     17
5     21
6     25
7     29
8     33
9     37
10    41
11    45
Name: x1, dtype: int32

In [9]:
# X1 column에 2 더하기
df["x1"] +2

0      3
1      7
2     11
3     15
4     19
5     23
6     27
7     31
8     35
9     39
10    43
11    47
Name: x1, dtype: int32

In [10]:
# dataframe의 맨 위 다섯줄을 보여주는 head()
df.head()

Unnamed: 0,x1,x2,x3,x4
0,1,2,3,4
1,5,6,7,8
2,9,10,11,12
3,13,14,15,16
4,17,18,19,20


In [11]:
# 10줄
df.head(10)

Unnamed: 0,x1,x2,x3,x4
0,1,2,3,4
1,5,6,7,8
2,9,10,11,12
3,13,14,15,16
4,17,18,19,20
5,21,22,23,24
6,25,26,27,28
7,29,30,31,32
8,33,34,35,36
9,37,38,39,40


In [12]:
# dataframe에 대한 전체적인 요약정보를 보여줍니다. index, columns, null/not-null/dtype/memory usage가 표시됩니다.
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12 entries, 0 to 11
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   x1      12 non-null     int32
 1   x2      12 non-null     int32
 2   x3      12 non-null     int32
 3   x4      12 non-null     int32
dtypes: int32(4)
memory usage: 320.0 bytes


In [13]:
# dataframe에 대한 전체적인 통계정보를 보여줍니다.
df.describe()

Unnamed: 0,x1,x2,x3,x4
count,12.0,12.0,12.0,12.0
mean,23.0,24.0,25.0,26.0
std,14.422205,14.422205,14.422205,14.422205
min,1.0,2.0,3.0,4.0
25%,12.0,13.0,14.0,15.0
50%,23.0,24.0,25.0,26.0
75%,34.0,35.0,36.0,37.0
max,45.0,46.0,47.0,48.0


In [14]:
# X2 column를 기준으로 내림차순 정렬
df.sort_values(by="x2", ascending = False)

Unnamed: 0,x1,x2,x3,x4
11,45,46,47,48
10,41,42,43,44
9,37,38,39,40
8,33,34,35,36
7,29,30,31,32
6,25,26,27,28
5,21,22,23,24
4,17,18,19,20
3,13,14,15,16
2,9,10,11,12


## 03. 원하는 데이터를 찾아오자

### Fancy Indexing ! (***)

- 데이터를 filtering <=> Search !

- 전체 데이터에서 원하는 일부의 데이터를 찾아오는 방법 !

In [15]:
# pandas dataframe은 column 이름을 이용하여 기본적인 Indexing이 가능합니다.
# X1 column을 indexing
df["x1"]

0      1
1      5
2      9
3     13
4     17
5     21
6     25
7     29
8     33
9     37
10    41
11    45
Name: x1, dtype: int32

In [16]:
# dataframe에서 slicing을 이용하면 row 단위로 잘려나옵니다.
# 앞에서 3줄을 slicing 합니다.
df[:3]

Unnamed: 0,x1,x2,x3,x4
0,1,2,3,4
1,5,6,7,8
2,9,10,11,12


In [17]:
# df에서 index value를 기준으로 indexing도 가능합니다. (여전히 row 단위)
# 두번째 row
df.loc[0]

x1    1
x2    2
x3    3
x4    4
Name: 0, dtype: int32

In [20]:
# df.loc는 특정값을 기준으로 indexing합니다. (key - value)
df.loc[0][2]
df.loc[0]["x3"]

3

In [23]:
# df.loc에 2차원 indexing도 가능합니다.
# df.loc["row에 대한 조건(index)","col에 대한 조건(col name)"]
df.loc[4,"x2"]
df.loc[[0,3],["x1","x3"]]
df.loc[0:4,"x1":"x3"] # loc로 슬라이싱 하면 모든 범위가 포함. 주의!!

Unnamed: 0,x1,x2,x3
0,1,2,3
1,5,6,7
2,9,10,11
3,13,14,15
4,17,18,19


In [27]:
## boolean mask == filter
mask = df["x1"] > 10 # row에 대한 조건
df.loc[mask]

# Q. df에서 X2 column이 20 이상인 모든 데이터(row)를 출력하세요.
mask2 = df["x2"] > 20
df.loc[mask2]

# Q2. df에서 X2 column이 20 이상인 X4를 출력하세요.(예. 나이가 30 이상인 사람들의 연봉)
df.loc[df["x2"] >= 20, "x4"]

5     24
6     28
7     32
8     36
9     40
10    44
11    48
Name: x4, dtype: int32

In [28]:
# Q3. X3 column에서 10 이상 30 이하인 데이터를 뽑아주세요.
mask3 = (10 <= df["x3"]) & (df["x3"] <= 30)
df.loc[mask3]

# Q4. X2 column에서 10보다 작거나 30 이상인 데이터를 뽑아주세요.


Unnamed: 0,x1,x2,x3,x4
2,9,10,11,12
3,13,14,15,16
4,17,18,19,20
5,21,22,23,24
6,25,26,27,28


In [29]:
# iloc로 2차원 indexing을 하게되면, row 기준으로 index 3,4를 가져오고 column 기준으로 0, 1을 가져옵니다.
# Q. 3번째 row부터 8번째 row까지, 첫번째 column부터 3개
df.iloc[2:7, 0:3]

Unnamed: 0,x1,x2,x3
2,9,10,11
3,13,14,15
4,17,18,19
5,21,22,23
6,25,26,27


## 04. 엑셀의 피벗 테이블? 판다스에도 있다!

- pivot table이란 기존 테이블 구조를 특정 column을 기준으로 재구조화한 테이블을 말합니다.

- 특정 column을 기준으로 pivot하기 때문에, 어떤 column에 어떤 연산을 하느냐에 따라서 만들어지는 결과가 바뀝니다.

- 주로 어떤 column을 기준으로 데이터를 해석하고 싶을 때 사용합니다.

Data Source : https://www.kaggle.com/c/titanic/data

In [30]:
# 타이타닉 데이터 불러오기
#./폴더명/파일명
titanic = pd.read_csv("titanic.csv")
titanic

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


In [31]:
# 데이터 크기, 데이터 Column 정보, Null count(결측치 개수), column별 데이터 타입
titanic.info()

# 통계량
titanic.describe()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


In [32]:
# 나이가 30이상인 사람들의 이름
titanic.loc[titanic["Age"] >= 30, "Name"]

1      Cumings, Mrs. John Bradley (Florence Briggs Th...
3           Futrelle, Mrs. Jacques Heath (Lily May Peel)
4                               Allen, Mr. William Henry
6                                McCarthy, Mr. Timothy J
11                              Bonnell, Miss. Elizabeth
                             ...                        
873                          Vander Cruyssen, Mr. Victor
879        Potter, Mrs. Thomas Jr (Lily Alexenia Wilson)
881                                   Markun, Mr. Johann
885                 Rice, Mrs. William (Margaret Norton)
890                                  Dooley, Mr. Patrick
Name: Name, Length: 330, dtype: object

In [33]:
# 성별을 기준으로 생존률 파악 --> Mean vs Sum
pd.pivot_table(data = titanic, index="Sex", values="Survived") # 평균으로 합쳐진다.

Unnamed: 0_level_0,Survived
Sex,Unnamed: 1_level_1
female,0.742038
male,0.188908


In [35]:
# 성별을 기준으로 생존률 파악 --> Mean vs Sum
pd.pivot_table(data = titanic,
               index="Sex",
               values="Survived",
              aggfunc=["mean", "sum","count"])

Unnamed: 0_level_0,mean,sum,count
Unnamed: 0_level_1,Survived,Survived,Survived
Sex,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
female,0.742038,233,314
male,0.188908,109,577


In [38]:
# 사회 계급을 기준으로 생존률 파악
pd.pivot_table(data = titanic,
               index="Pclass",
               values="Survived",
              aggfunc=["count","sum","mean"])

Unnamed: 0_level_0,count,sum,mean
Unnamed: 0_level_1,Survived,Survived,Survived
Pclass,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
1,216,136,0.62963
2,184,87,0.472826
3,491,119,0.242363


In [39]:
# 사회 계급을 기준으로 생존률 파악
pd.pivot_table(data = titanic,
               index=["Pclass","Sex"],
               values="Survived",
              aggfunc=["count","sum","mean"])

Unnamed: 0_level_0,Unnamed: 1_level_0,count,sum,mean
Unnamed: 0_level_1,Unnamed: 1_level_1,Survived,Survived,Survived
Pclass,Sex,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
1,female,94,91,0.968085
1,male,122,45,0.368852
2,female,76,70,0.921053
2,male,108,17,0.157407
3,female,144,72,0.5
3,male,347,47,0.135447
