# 회귀란? 최적의 선을 찾는것...!!!
# 최적의 선이랑 예측 값의 선....
# 예측 값의 선으로 부터 결과 값들의 거리가 작을수록 좋은 예측이다

import pandas as pd
import numpy as np
import warnings
warnings.filterwarnings("ignore")

df = pd.read_csv("../data_set/6.회귀/HousingData.csv")
df.head()

from sklearn.model_selection import train_test_split

y = df['MEDV']
X = df.drop(["MEDV"], axis=1)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

from sklearn.neighbors import KNeighborsRegressor

kn = KNeighborsRegressor()
kn.fit(X_train, y_train)

KNeighborsRegressor()

KNeighborsRegressor()

pred = kn.predict( X_test )
pred

array([23.46, 15.06, 23.38, 25.44, 22.14, 16.52, 20.02, 28.02, 23.52,
       21.5 , 41.54, 16.52, 23.9 , 29.94, 23.56, 17.32, 21.46, 24.3 ,
       14.84, 28.64, 23.46, 24.78, 17.92, 29.26, 18.62, 20.6 , 20.56,
       20.64, 18.32, 15.54, 11.68, 18.32, 28.72, 39.32, 38.  , 20.16,
       27.36, 20.98, 23.94, 24.06, 30.38,  9.96, 16.64, 34.9 , 28.76,
       15.4 , 30.02, 23.82, 13.26, 10.56, 28.02, 33.18, 20.88, 22.62,
       28.36, 24.56, 23.16, 21.64, 26.14, 11.14, 28.06, 15.2 , 21.5 ,
       13.26, 12.88, 13.34, 25.38, 12.3 , 13.28, 26.44, 23.96, 28.22,
       31.48, 18.24, 15.4 , 28.42, 24.46, 23.9 , 21.72, 34.34, 16.84,
        8.2 , 28.02, 23.36, 20.7 , 32.32, 12.34, 28.26, 15.4 , 29.  ,
       20.9 , 29.86, 23.  , 21.5 , 21.5 , 22.08, 20.96, 20.76, 28.06,
       13.1 , 17.96, 19.58, 14.76, 18.62, 11.92, 11.46, 18.14, 36.86,
       29.04, 22.48, 29.82, 25.52, 24.82, 14.68, 29.96, 28.02, 21.12,
       10.8 , 22.68, 20.7 , 30.34, 10.04, 21.64, 41.54, 12.32, 21.58,
       19.94, 31.92, 22.12, 11.82, 24.78, 19.26, 25.38, 36.18, 29.66,
       16.74, 22.38, 20.12, 41.54, 11.94, 22.42, 12.18, 17.76, 25.48,
       17.58, 27.02, 22.48, 24.66, 35.24, 27.82, 22.68, 40.16])

y_test

63     25.0
417    10.4
339    19.0
84     23.9
215    25.0
       ... 
294    21.7
232    41.7
150    21.5
172    23.1
94     20.6
Name: MEDV, Length: 152, dtype: float64

from sklearn.metrics import mean_squared_error, r2_score

mse = mean_squared_error(y_test, pred)
r2 = r2_score(y_test, pred)

print("mse : ", mse)
print("r2 : ", r2)
print("score : ", kn.score(X_train, y_train))
print("score : ", kn.score(X_test, y_test))

# mse 는 0과 가까울 수록 좋은 결과
# r2, score 는 높을 수록 좋은 결과

mse :  43.82906578947368
r2 :  0.5349249633916936
score :  0.6057676219071229
score :  0.5349249633916936

from sklearn.ensemble import RandomForestRegressor

rfr = RandomForestRegressor()

rfr.fit(X_train, y_train)

RandomForestRegressor()

RandomForestRegressor()

pred = rfr.predict( X_test )
mse = mean_squared_error(y_test, pred)
r2 = r2_score(y_test, pred)

print("mse : ", mse)
print("r2 : ", r2)
print("score : ", rfr.score(X_train, y_train))
print("score : ", rfr.score(X_test, y_test))

mse :  13.420632730263165
r2 :  0.857592190344317
score :  0.9701950979154201
score :  0.857592190344317

df = pd.read_csv("../data_set/6.회귀/data.csv")
df.head()

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10886 entries, 0 to 10885
Data columns (total 12 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   datetime    10886 non-null  object 
 1   season      10886 non-null  int64  
 2   holiday     10886 non-null  int64  
 3   workingday  10886 non-null  int64  
 4   weather     10886 non-null  int64  
 5   temp        10886 non-null  float64
 6   atemp       10886 non-null  float64
 7   humidity    10886 non-null  int64  
 8   windspeed   10886 non-null  float64
 9   casual      10886 non-null  int64  
 10  registered  10886 non-null  int64  
 11  count       10886 non-null  int64  
dtypes: float64(3), int64(8), object(1)
memory usage: 1020.7+ KB

# 문자열(object) 형식으로 저장되어 있던 datetime 을
# datetime 자료형으로 변환
df['datetime'] = df['datetime'].apply(pd.to_datetime)

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10886 entries, 0 to 10885
Data columns (total 12 columns):
 #   Column      Non-Null Count  Dtype         
---  ------      --------------  -----         
 0   datetime    10886 non-null  datetime64[ns]
 1   season      10886 non-null  int64         
 2   holiday     10886 non-null  int64         
 3   workingday  10886 non-null  int64         
 4   weather     10886 non-null  int64         
 5   temp        10886 non-null  float64       
 6   atemp       10886 non-null  float64       
 7   humidity    10886 non-null  int64         
 8   windspeed   10886 non-null  float64       
 9   casual      10886 non-null  int64         
 10  registered  10886 non-null  int64         
 11  count       10886 non-null  int64         
dtypes: datetime64[ns](1), float64(3), int64(8)
memory usage: 1020.7 KB

# 년 / 월 / 일 / 시
# 컬럼으로 따로 분리
df['year'] = df['datetime'].dt.year
df['month'] = df['datetime'].dt.month
df['day'] = df['datetime'].dt.day
df['hour'] = df['datetime'].dt.hour

df.head()

# 시간 별로 빌린 자전거 댓수의 합
d = df.groupby('hour').agg({"count":sum}).reset_index()
d

import seaborn as sns
import matplotlib.pyplot as plt

plt.figure(figsize=(7,5))
sns_result = sns.pointplot(data=d, x="hour", y="count")

plt.xticks(rotation=45)
plt.title("bicycle rental", fontsize=15, color="black")
plt.show()

# 휴일과 휴일이 아닌 날로 그룹화
d = df.groupby(['hour','workingday']).agg({"count":sum}).reset_index()
d.head()

# 1 : 주중
# 0 : 휴일 ( 토, 일 )
sns.pointplot(data=d, x="hour", y="count", hue="workingday")
plt.show()

# 시간대 별, 월 별로 확인
d = df.groupby(['hour','month']).agg({"count":sum}).reset_index()
d.head()

sns.pointplot(data=d, x="hour", y="count", hue="month")
plt.show()

# 시간대 별, 날씨 별로 확인
# weather : 1(맑음), 2(흐림), 3(가벼운 눈, 비), 4(심한 눈, 비)
d = df.groupby(['hour','weather']).agg({"count":sum}).reset_index()
d.head()
sns.pointplot(data=d, x="hour", y="count", hue="weather")
plt.show()

df.columns

Index(['datetime', 'season', 'holiday', 'workingday', 'weather', 'temp',
       'atemp', 'humidity', 'windspeed', 'casual', 'registered', 'count',
       'year', 'month', 'day', 'hour'],
      dtype='object')

f = ['season', 'holiday', 'workingday', 'weather', 'temp',
       'atemp', 'humidity', 'windspeed', 'year', 'month', 'day', 'hour']
l = 'count'
X, y = df[f], df[l]

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

from sklearn.ensemble import RandomForestRegressor
rfr = RandomForestRegressor()
rfr.fit(X_train, y_train)
print("train : ", rfr.score(X_train, y_train))
print("test : ", rfr.score(X_test, y_test))

train :  0.9914114957469251
test :  0.9376778114053523

from sklearn.model_selection import GridSearchCV

params = {
    "n_estimators" : range(5, 100, 10), # 트리 갯수(알고리즘)
    "max_depth" : range(4, 11, 2), # 트리의 최대 깊이
    "min_samples_split" : range(4, 21, 4) # 립노드 조건 샘플 수
}

rfr = RandomForestRegressor()
grid_cv = GridSearchCV(rfr, param_grid=params, cv=3, n_jobs=-1)

grid_cv.fit(X_train, y_train)

print("최적의 파라미터 : ", grid_cv.best_params_)
print("train : ", grid_cv.score(X_train, y_train))
print("test : ", grid_cv.score(X_test, y_test))

최적의 파라미터 :  {'max_depth': 10, 'min_samples_split': 4, 'n_estimators': 75}
train :  0.9525772588841167
test :  0.9206851922918676

X.head(3)

# 대략 아래와 같은 상황에서는 자전거가 20대가 필요하겠다....!!
# 아래와 같은 계절, 흄, 날씨, 온도 등등등.... 에서
re = grid_cv.predict([[1, 0, 0, 1, 9.84, 14.395, 81, 0.0, 2011, 1, 1, 0]])
re[0]

20.63599993470582

int(re[0])

20

# 예제 : 두 값을 비교하기 위함
df_result = pd.DataFrame({"y_test ": [11,12,13,14,15,16,17,18,19],
                    "line_test" : [10,11,12,13,14,15,16,17,18]})

sns.lineplot(data = df_result)
plt.legend(labels=["Legend_Day1","Legend_Day2"])
# 실제 정답과 예측 정답 두가지를 넣고 lineplot를 이용하여 그리면 된다

<matplotlib.legend.Legend at 0x1b203e646d0>

grid_cv.predict(X_test)

array([147.88696059, 272.60793329,  18.18288773, ..., 197.27226131,
       415.09046011, 419.37438723])

y_test

7971     95
848     162
642      37
1023      1
6050    508
       ... 
5327     31
3742    121
4530    209
4375    209
8311    294
Name: count, Length: 3266, dtype: int64

range_start = 0
range_end = 30
line_test = grid_cv.predict(X_test)

y_test_reset = y_test[range_start : range_end].reset_index()
y_test_reset['pred_test'] = line_test[range_start : range_end]
y_test_reset['pred_test'] = y_test_reset['pred_test'].apply( int )

sns.lineplot( data = y_test_reset[['count', 'pred_test']])
plt.legend(labels = ['y_test', 'pred test'])

<matplotlib.legend.Legend at 0x1b20aae5b10>

	CRIM	ZN	INDUS	NOX	RM	AGE	DIS	RAD	TAX	PTRATIO	B	LSTAT	MEDV
0	0.00632	18.0	2.31	0.538	6.575	65.2	4.0900	1	296	15.3	396.90	4.98	24.0
1	0.02731	0.0	7.07	0.469	6.421	78.9	4.9671	2	242	17.8	396.90	9.14	21.6
2	0.02729	0.0	7.07	0.469	7.185	61.1	4.9671	2	242	17.8	392.83	4.03	34.7
3	0.03237	0.0	2.18	0.458	6.998	45.8	6.0622	3	222	18.7	394.63	2.94	33.4
4	0.06905	0.0	2.18	0.458	7.147	54.2	6.0622	3	222	18.7	396.90	0.00	36.2

	hour	workingday	count
0	0	0	13701
1	0	1	11387
2	1	0	10427
3	1	1	4945
4	2	0	7686

	month	count
0	1	852
1	2	1096
2	3	1249
3	4	1480
4	5	2441

회귀¶

회귀 평가지표¶

자전거 수요 예측¶

	datetime	season	weather	temp	atemp	humidity	casual	registered	count
0	2011-01-01 00:00:00	1	1	9.84	14.395	81	3	13	16
1	2011-01-01 01:00:00	1	1	9.02	13.635	80	8	32	40
2	2011-01-01 02:00:00	1	1	9.02	13.635	80	5	27	32
3	2011-01-01 03:00:00	1	1	9.84	14.395	75	3	10	13
4	2011-01-01 04:00:00	1	1	9.84	14.395	75	0	1	1

	hour	count
0	0	25088
1	1	15372
2	2	10259
3	3	5091
4	4	2832
5	5	8935
6	6	34698
7	7	96968
8	8	165060
9	9	100910
10	10	79667
11	11	95857
12	12	116968
13	13	117551
14	14	111010
15	15	115960
16	16	144266
17	17	213757
18	18	196472
19	19	143767
20	20	104204
21	21	79057
22	22	60911
23	23	40816

	season	weather	temp	atemp	humidity	year	month	day	hour
0	1	1	9.84	14.395	81	2011	1	1	0
1	1	1	9.02	13.635	80	2011	1	1	1
2	1	1	9.02	13.635	80	2011	1	1	2