{ "cells": [ { "cell_type": "markdown", "id": "efb5e0c9-cfe0-4bf4-8c13-b864657365b7", "metadata": {}, "source": [ "### 하이퍼파라미터\r\n", "* 예측력을 높이기 위해 사용\r\n", "* 과대/과소 적합을 방지하기 위해 사용\r\n", "* 사용자가 지정하는 파라미터\r\n", "\r\n", "#### 하이퍼파라미터 튜닝\r\n", "* 특정 알고리즘의 매개변수 값을 변경하면서 최적의 파라미터를 찾는 방식\r\n", "* GridSearchCV클래스를 통해 하이퍼파라미터 탐색과 교차 검증을 한번에 수행\r\n", "\r\n", "#### GridSearchCV\r\n", "* 교차 검증으로 하이퍼파라미터 탐색을 수행한다\r\n", "* 최상의 모델을 찾은 후 훈련 세트 전체를 사용해 최종 모델을 훈련한다\r\n", "* 매개변수\r\n", " - GridSearchCV(모델, param_grid = 파라미터, cv=반복횟수, n_jobs=코어 수(-1, 모든 코어 사용))" ] }, { "cell_type": "code", "execution_count": 2, "id": "cb443f9b-1d9a-4135-acd4-0ff3f3700301", "metadata": {}, "outputs": [], "source": [ "# 교차 검증이란?\n", "# : 70 퍼센트의 학습용 데이터를 다시 쪼개서 학습하고 쪼개서 학습한 단위를\n", "# : 단위 학습이 끝날 때마다 테스트를 진행" ] }, { "cell_type": "markdown", "id": "c4f97d43-a651-4ce6-b075-26a4b01e2dfc", "metadata": {}, "source": [ "### K-최근접 이웃 알고리즘\r\n", "* 주위에서 가장 가까운 다른 데이터를 보고 현재 데이터를 판단\r\n", "\r\n", "#### 하이퍼파라미터\r\n", "* n_neighbors\r\n", " - 기본 가까운 5개의 데이터를 보고 자기 자신이 어디에 속하는지를 판단\r\n", " - 비교하고자 하는 데이터의 수가 적을 수록 과대 적합이 된다\r\n", "* metric : 거리계산 척도\r\n", " - euclidean(녹색) : 유클리디안 거리 측정\r\n", " * 목표 지점까지 가장 짧은 거리\r\n", " - manhattan(빨간색) : 맨하튼 거리 측정 방법\r\n", " * 찾아가는 경로의 모든 길이의 합\r\n", "* weights : 가중치\r\n", " - uniform : 거리에 가중치 부여하지 않음(균일한 가중치)\r\n", " - distance : 거리에 가중치 부여(가까이 있는 데이터에 가중치)" ] }, { "cell_type": "markdown", "id": "9f518611-404e-42fc-9cbc-54a0f8c1b592", "metadata": {}, "source": [ "" ] }, { "cell_type": "code", "execution_count": null, "id": "e507593a-34f6-4383-83b6-a2d44e470b2c", "metadata": {}, "outputs": [], "source": [] }, { "cell_type": "code", "execution_count": null, "id": "53bd692d-32d2-4b15-9972-b4ede3034e07", "metadata": {}, "outputs": [], "source": [] }, { "cell_type": "code", "execution_count": 3, "id": "13905392-f85a-4e79-ab42-3867f1951ece", "metadata": {}, "outputs": [], "source": [ "from sklearn.neighbors import KNeighborsClassifier\n", "from sklearn.preprocessing import MinMaxScaler\n", "from sklearn.model_selection import train_test_split\n", "import pandas as pd\n", "import warnings\n", "warnings.filterwarnings(\"ignore\")" ] }, { "cell_type": "code", "execution_count": 4, "id": "3bdf113e-f4d3-4547-8f1a-b109ac690107", "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
PassengerIdSurvivedPclassSexAgeSibSpParchFare
0103022.0107.2500
1211138.01071.2833
2313126.0007.9250
3411135.01053.1000
4503035.0008.0500
\n", "
" ], "text/plain": [ " PassengerId Survived Pclass Sex Age SibSp Parch Fare\n", "0 1 0 3 0 22.0 1 0 7.2500\n", "1 2 1 1 1 38.0 1 0 71.2833\n", "2 3 1 3 1 26.0 0 0 7.9250\n", "3 4 1 1 1 35.0 1 0 53.1000\n", "4 5 0 3 0 35.0 0 0 8.0500" ] }, "execution_count": 4, "metadata": {}, "output_type": "execute_result" } ], "source": [ "df = pd.read_csv(\"../data_set/5.스케일링/titanic_cleaning.csv\")\n", "df.head()" ] }, { "cell_type": "code", "execution_count": 6, "id": "5be1cfd9-2174-4f22-a547-c71c32acc712", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "Index(['PassengerId', 'Survived', 'Pclass', 'Sex', 'Age', 'SibSp', 'Parch',\n", " 'Fare'],\n", " dtype='object')" ] }, "execution_count": 6, "metadata": {}, "output_type": "execute_result" } ], "source": [ "df.columns" ] }, { "cell_type": "code", "execution_count": 19, "id": "6f06a6e5-40f2-4131-b562-57f56c80fc06", "metadata": {}, "outputs": [], "source": [ "features = ['Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare']\n", "label = \"Survived\"\n", "X, y = df[features], df[label]" ] }, { "cell_type": "code", "execution_count": 20, "id": "16545ea2-e10d-4298-b0dc-c8bb53f76176", "metadata": {}, "outputs": [], "source": [ "minMaxScaler = MinMaxScaler()\n", "minMaxScaler.fit(X)\n", "X_scaler = minMaxScaler.transform(X)" ] }, { "cell_type": "code", "execution_count": 21, "id": "433a55c0-2593-4346-9c3b-516aee64c18b", "metadata": {}, "outputs": [], "source": [ "# 학습용 80%, 테스트용 20%\n", "X_train_minMax, X_test_minMax, y_train, y_test = train_test_split(X_scaler, y, test_size=0.2)" ] }, { "cell_type": "code", "execution_count": 22, "id": "856edd77-e8d8-4375-912d-47a47ba04822", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "train 0.8721910112359551\n", "test 0.8212290502793296\n" ] } ], "source": [ "# 알고리즘 생성\n", "knn = KNeighborsClassifier()\n", "\n", "knn.fit(X_train_minMax, y_train)\n", "\n", "print(\"train \", knn.score(X_train_minMax, y_train))\n", "print(\"test \", knn.score(X_test_minMax, y_test))" ] }, { "cell_type": "code", "execution_count": 25, "id": "4ff6d4b7-65c1-4bed-a46a-b359014d35e1", "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
ktrain 정확도test 정확도
010.9859550.754190
120.8960670.793296
230.8876400.810056
340.8637640.826816
450.8721910.821229
560.8553370.826816
670.8511240.804469
780.8384830.821229
890.8398880.787709
9100.8412920.787709
\n", "
" ], "text/plain": [ " k train 정확도 test 정확도\n", "0 1 0.985955 0.754190\n", "1 2 0.896067 0.793296\n", "2 3 0.887640 0.810056\n", "3 4 0.863764 0.826816\n", "4 5 0.872191 0.821229\n", "5 6 0.855337 0.826816\n", "6 7 0.851124 0.804469\n", "7 8 0.838483 0.821229\n", "8 9 0.839888 0.787709\n", "9 10 0.841292 0.787709" ] }, "execution_count": 25, "metadata": {}, "output_type": "execute_result" } ], "source": [ "k_param = range(1, 11)\n", "train_list = []\n", "test_list = []\n", "for k in k_param:\n", " knn = KNeighborsClassifier( n_neighbors=k )\n", " knn.fit(X_train_minMax, y_train)\n", " # print(\"k : \", k, \"train : \", knn.score(X_train_minMax, y_train), knn.score(X_test_minMax, y_test))\n", " train_list.append(knn.score(X_train_minMax, y_train))\n", " test_list.append(knn.score(X_test_minMax, y_test))\n", "\n", "dic = {\n", " \"k\" : k_param,\n", " \"train 정확도\" : train_list,\n", " \"test 정확도\" : test_list\n", "}\n", "\n", "score_df = pd.DataFrame(dic)\n", "score_df" ] }, { "cell_type": "code", "execution_count": 29, "id": "af1f063f-b6eb-4b69-bcbe-ce413d40eb7c", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "" ] }, "execution_count": 29, "metadata": {}, "output_type": "execute_result" }, { "data": { "image/png": "", "text/plain": [ "
" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "import matplotlib.pyplot as plt\n", "import seaborn as sns\n", "\n", "plt.rc(\"font\", family = \"Malgun Gothic\")\n", "\n", "fig, ax = plt.subplots( figsize = (5,5) )\n", "\n", "sns.lineplot( x=\"k\", y=\"train 정확도\", data=score_df )\n", "sns.lineplot( x=\"k\", y=\"test 정확도\", data=score_df )" ] }, { "cell_type": "code", "execution_count": 32, "id": "b9364bae-00cf-4d2b-931d-4c0ba94e6f52", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "최적의 하이퍼 파라미터 : {'metric': 'manhattan', 'n_neighbors': 4, 'weights': 'uniform'}\n", "0.8665730337078652\n", "0.8379888268156425\n" ] } ], "source": [ "from sklearn.model_selection import GridSearchCV\n", "\n", "# params = {\n", "# \"n_neighbors\" : k_param\n", "# }\n", "\n", "params = {\n", " \"n_neighbors\" : range(1, 11),\n", " \"metric\" : [\"manhattan\", \"euclidean\"],\n", " \"weights\" : [\"uniform\", \"distance\"]\n", "}\n", "\n", "knn = KNeighborsClassifier()\n", "\n", "grid_cv = GridSearchCV(knn, param_grid=params, cv=5, n_jobs=-1)\n", "grid_cv.fit( X_train_minMax, y_train )\n", "print(\"최적의 하이퍼 파라미터 : \", grid_cv.best_params_ )\n", "\n", "print( grid_cv.score( X_train_minMax, y_train ) )\n", "print( grid_cv.score( X_test_minMax, y_test ) )" ] }, { "cell_type": "code", "execution_count": 33, "id": "d0781fa3-4603-44d1-bc83-a483d9e839b2", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "0.8834269662921348\n", "0.8268156424581006\n" ] } ], "source": [ "knn = KNeighborsClassifier(n_neighbors=3, metric=\"manhattan\", weights=\"uniform\")\n", "knn.fit( X_train_minMax, y_train )\n", "\n", "print( knn.score( X_train_minMax, y_train ) )\n", "print( knn.score( X_test_minMax, y_test ) )" ] }, { "cell_type": "code", "execution_count": null, "id": "f9a71e9f-f566-455b-82cf-b1128d3541b4", "metadata": {}, "outputs": [], "source": [] }, { "cell_type": "code", "execution_count": null, "id": "1d56a5c6-9ccd-43a5-898c-24cb414758e6", "metadata": {}, "outputs": [], "source": [] }, { "cell_type": "markdown", "id": "e8550917-0a68-400f-899e-db2a7ad03f69", "metadata": {}, "source": [ "### 랜덤 포레스트 하이퍼 파라미터\r\n", "* n_estimators\r\n", " - 트리의 개수. default=10\r\n", " - 트리의 개수가 많이면 성능은 좋아지지만, 시간이 오래 걸릴수 있다.\r\n", "* max_depth\r\n", " - 트리의 최대 깊이. default = None\r\n", " - 완벽하게 파라미터값이 결정될 때 까지 분할 또는 min_samples_split보자 작아질 때까지 분할\r\n", " - 깊이가 깊어지면 과대적합될 수 있으므로 적절히 제어 필요\r\n", "* min_samples_leaf\r\n", " - 맆노드(자식노드가 없는 노드)가 되기 위해 최소한의 샘플 데이터 수\r\n", " - min_samples_split과 함께 과대적합 제어용도\r\n", " - 불균형 데이터가 있는 경우 작게 설정하는게 좋다" ] }, { "cell_type": "markdown", "id": "85d8ced0-a68c-4b09-82f9-60df1c89f44f", "metadata": {}, "source": [ "" ] }, { "cell_type": "code", "execution_count": 34, "id": "02dd4348-6223-4056-92a8-9f12c97c5679", "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
PassengerIdSurvivedPclassSexAgeSibSpParchFare
0103022.0107.2500
1211138.01071.2833
2313126.0007.9250
3411135.01053.1000
4503035.0008.0500
\n", "
" ], "text/plain": [ " PassengerId Survived Pclass Sex Age SibSp Parch Fare\n", "0 1 0 3 0 22.0 1 0 7.2500\n", "1 2 1 1 1 38.0 1 0 71.2833\n", "2 3 1 3 1 26.0 0 0 7.9250\n", "3 4 1 1 1 35.0 1 0 53.1000\n", "4 5 0 3 0 35.0 0 0 8.0500" ] }, "execution_count": 34, "metadata": {}, "output_type": "execute_result" } ], "source": [ "from sklearn.ensemble import RandomForestClassifier\n", "\n", "df = pd.read_csv(\"../data_set/5.스케일링/titanic_cleaning.csv\")\n", "df.head()" ] }, { "cell_type": "code", "execution_count": 35, "id": "4f4ab82d-24f0-43dc-816f-2a77daa5119b", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "Index(['PassengerId', 'Survived', 'Pclass', 'Sex', 'Age', 'SibSp', 'Parch',\n", " 'Fare'],\n", " dtype='object')" ] }, "execution_count": 35, "metadata": {}, "output_type": "execute_result" } ], "source": [ "df.columns" ] }, { "cell_type": "code", "execution_count": 36, "id": "0a4be1eb-82a9-4f57-9ea2-5ae996ba9462", "metadata": {}, "outputs": [], "source": [ "f = ['Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare']\n", "label = \"Survived\"\n", "X, y = df[f], df[label]" ] }, { "cell_type": "code", "execution_count": 37, "id": "cf41396c-7224-4a2a-986d-db4529b33ff9", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "train : 0.9873595505617978\n", "test : 0.8324022346368715\n" ] } ], "source": [ "X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)\n", "rfc = RandomForestClassifier()\n", "rfc.fit(X_train, y_train)\n", "print(\"train : \", rfc.score(X_train, y_train))\n", "print(\"test : \", rfc.score(X_test, y_test))" ] }, { "cell_type": "code", "execution_count": 43, "id": "fa8da18f-2a12-4f5c-9f23-ad506df3f07d", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "train : 0.8581460674157303\n", "test : 0.8212290502793296\n" ] } ], "source": [ "rfc = RandomForestClassifier(n_estimators=10, max_depth=10000, min_samples_leaf=10)\n", "rfc.fit(X_train, y_train)\n", "print(\"train : \", rfc.score(X_train, y_train))\n", "print(\"test : \", rfc.score(X_test, y_test))" ] }, { "cell_type": "code", "execution_count": 45, "id": "1359a0e3-ed04-4fdc-9d36-d63e636e489b", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "최적의 하이퍼파라미터 : {'max_depth': 8, 'min_samples_leaf': 5, 'n_estimators': 50}\n", "train : 0.8764044943820225\n", "test : 0.8156424581005587\n" ] } ], "source": [ "params = {\n", " \"n_estimators\" : range(10, 101, 10),\n", " \"max_depth\" : range(4, 11, 2),\n", " \"min_samples_leaf\" : range(5, 21, 5)\n", "}\n", "rfc = RandomForestClassifier()\n", "\n", "grid_cv = GridSearchCV( rfc, param_grid=params, cv=3, n_jobs=-1 )\n", "grid_cv.fit( X_train, y_train )\n", "print(\"최적의 하이퍼파라미터 : \", grid_cv.best_params_)\n", "print(\"train : \", grid_cv.score(X_train, y_train))\n", "print(\"test : \", grid_cv.score(X_test, y_test))" ] }, { "cell_type": "code", "execution_count": 46, "id": "8de6845b-96cd-4561-b741-36efa7a9a8fe", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "array([1, 1, 1, 1, 0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0, 1, 0, 1, 0, 1, 0, 0,\n", " 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 1, 1, 0, 0, 1, 1, 1, 0, 0, 0, 0,\n", " 0, 0, 0, 0, 0, 0, 1, 1, 0, 1, 1, 0, 1, 0, 0, 0, 1, 1, 1, 1, 0, 1,\n", " 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 1, 1,\n", " 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 1, 1, 1, 0, 0, 1, 0, 0,\n", " 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0,\n", " 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 1, 1, 1, 1, 0, 0, 0,\n", " 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 0, 1, 0, 1, 0, 0, 0, 0, 1, 0, 1, 1,\n", " 0, 0, 1, 0, 0, 1, 0, 0, 1, 0, 0, 1, 0, 0, 1, 1, 0, 1, 1, 1, 1, 0,\n", " 0, 0, 0, 0, 0, 1, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0,\n", " 0, 0, 1, 1, 1, 1, 1, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 1, 1, 0, 1, 0,\n", " 0, 1, 0, 1, 0, 1, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0,\n", " 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 1, 0, 1, 0, 0, 0,\n", " 0, 0, 1, 1, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0,\n", " 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 1, 1, 0, 0, 1, 0, 0, 1, 1, 0, 1, 1,\n", " 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0,\n", " 0, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 1, 1, 0, 0, 0, 1, 1,\n", " 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 1, 0, 1, 0, 1, 0, 0, 0,\n", " 1, 1, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 1,\n", " 0, 1, 1, 1, 0, 0, 0, 0, 0, 1, 0, 1, 1, 0, 1, 1, 0, 1, 0, 0, 0, 0,\n", " 1, 1, 0, 0, 0, 1, 0, 1, 0, 0, 1, 1, 1, 1, 1, 0, 0, 0, 0, 1, 0, 0,\n", " 0, 1, 1, 1, 1, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0,\n", " 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1,\n", " 0, 1, 1, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 1,\n", " 0, 0, 0, 0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0, 1, 0, 0, 1, 0, 1, 1, 0,\n", " 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0,\n", " 1, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0, 0, 1, 0,\n", " 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 1, 1, 0, 0, 0, 0, 0, 1, 0, 1, 1,\n", " 1, 0, 1, 0, 1, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 1, 0, 1, 0, 0, 1, 0,\n", " 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 1, 1, 0, 1, 0, 0, 0, 0, 0,\n", " 1, 1, 1, 0, 0, 0, 0, 0, 1, 0, 1, 0, 1, 1, 0, 1, 0, 1, 0, 0, 0, 0,\n", " 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 1, 1,\n", " 1, 0, 0, 0, 1, 0, 0, 1], dtype=int64)" ] }, "execution_count": 46, "metadata": {}, "output_type": "execute_result" } ], "source": [ "grid_cv.predict( X_train )" ] }, { "cell_type": "code", "execution_count": null, "id": "86253975-6da6-42ed-8e32-5a6bc9253fa2", "metadata": {}, "outputs": [], "source": [] }, { "cell_type": "code", "execution_count": null, "id": "94c57d81-97b2-4404-81e0-eb840922bd2a", "metadata": {}, "outputs": [], "source": [] }, { "cell_type": "markdown", "id": "f2f19192-c0cb-47be-b491-e917dc9883f2", "metadata": {}, "source": [ "### 하이퍼파라미터\r\n", "* n_estimators\r\n", " - 학습기의 수 설정.\r\n", " - 많으면 예측률은 올라가나 시간이 오래걸릴 수 있음.\r\n", "* learning_rate\r\n", " - GBM이 학습을 진행할 때마다 적용하는 학습률로서 순차적으로 오류 값을 보정해가는 데 적용하는 수 이다\r\n", " - 0~1 사이의 값으로 지정한다. default=0.1\r\n", " - 너무 작은 값이면 업데이트를 너무 많이 하게 되어 꼼꼼하지만 시간이 오래 걸린다\r\n", " - 너무 큰 값이면 최소 오류 값을 찾지 못할 수 있지만 빠르다\r\n", "* subsample\r\n", " - 학습기가 학습에 사용하는 데이터 샘플의 비율(0~1). default=1.\r\n", " - 0.5일경우 50%학습데이터를 사용한다는 것이다\r\n", " - 과대적합을 줄이려면 작은 값을 적용해야 한다." ] }, { "cell_type": "code", "execution_count": 47, "id": "535d89d7-157e-47b6-99dd-38e69df8c363", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "train : 0.9044943820224719\n", "test : 0.8212290502793296\n" ] } ], "source": [ "from sklearn.ensemble import GradientBoostingClassifier\n", "gb = GradientBoostingClassifier()\n", "gb.fit(X_train, y_train)\n", "print(\"train : \", gb.score(X_train, y_train))\n", "print(\"test : \", gb.score(X_test, y_test))" ] }, { "cell_type": "code", "execution_count": 54, "id": "1671978e-536f-406b-abc6-312c57ce4ce2", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "train : 0.9058988764044944\n", "test : 0.8324022346368715\n" ] } ], "source": [ "gb = GradientBoostingClassifier( learning_rate=0.1, n_estimators=100, subsample=0.9 )\n", "gb.fit(X_train, y_train)\n", "print(\"train : \", gb.score(X_train, y_train))\n", "print(\"test : \", gb.score(X_test, y_test))" ] }, { "cell_type": "code", "execution_count": 59, "id": "0932b711-5929-4759-8838-f4878a7427a7", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "파라미터 : {'learning_rate': 0.1, 'n_estimators': 100, 'subsample': 0.5000000000000001}\n", "train : 0.898876404494382\n", "test : 0.8491620111731844\n" ] } ], "source": [ "import numpy as np\n", "\n", "params = {\n", " \"learning_rate\" :[0.1, 0.3, 0.5, 0.7, 0.9],\n", " \"n_estimators\" : [100, 200, 300, 400, 500],\n", " \"subsample\" : np.arange(0.1, 1, 0.2)\n", "}\n", "\n", "gb = GradientBoostingClassifier()\n", "\n", "grid_cv = GridSearchCV( gb, param_grid=params, cv=3, n_jobs=-1 )\n", "grid_cv.fit(X_train, y_train)\n", "print(\"파라미터 : \", grid_cv.best_params_)\n", "print(\"train : \", grid_cv.score(X_train, y_train))\n", "print(\"test : \", grid_cv.score(X_test, y_test))" ] } ], "metadata": { "kernelspec": { "display_name": "Python 3 (ipykernel)", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.11.7" } }, "nbformat": 4, "nbformat_minor": 5 }