{ "cells": [ { "cell_type": "markdown", "metadata": {}, "source": [ "# 머신러닝 기본 개념\n", "![](https://i.imgur.com/mqb8VVO.png)" ] }, { "cell_type": "code", "execution_count": 4, "metadata": {}, "outputs": [], "source": [ "import numpy as np\n", "import pandas as pd\n", "import matplotlib.pyplot as plt\n", "import seaborn as sns" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "# 분류 (Classification)\n", "- 어떤 대상을 정해진 범주에 구분해 넣는 작업\n", "- **주어진 특성에 따라 어떤 대상을 범주(target)로 구분하는 방법**\n", " - 레이블 또는 타겟이 범주형일때 사용\n", "- 범주가 2개인 경우 **이진 분류 (Binary Classification)**\n", "- 범주가 세개 이상인 경우 **다중 분류 (MultiClass Classification)**" ] }, { "cell_type": "code", "execution_count": 10, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
mean radiusmean texturemean perimetermean areamean smoothnessmean compactnessmean concavitymean concave pointsmean symmetrymean fractal dimension...worst textureworst perimeterworst areaworst smoothnessworst compactnessworst concavityworst concave pointsworst symmetryworst fractal dimensiontarget
017.9910.38122.801001.00.118400.277600.300100.147100.24190.07871...17.33184.602019.00.162200.665600.71190.26540.46010.118900
120.5717.77132.901326.00.084740.078640.086900.070170.18120.05667...23.41158.801956.00.123800.186600.24160.18600.27500.089020
219.6921.25130.001203.00.109600.159900.197400.127900.20690.05999...25.53152.501709.00.144400.424500.45040.24300.36130.087580
311.4220.3877.58386.10.142500.283900.241400.105200.25970.09744...26.5098.87567.70.209800.866300.68690.25750.66380.173000
420.2914.34135.101297.00.100300.132800.198000.104300.18090.05883...16.67152.201575.00.137400.205000.40000.16250.23640.076780
..................................................................
56421.5622.39142.001479.00.111000.115900.243900.138900.17260.05623...26.40166.102027.00.141000.211300.41070.22160.20600.071150
56520.1328.25131.201261.00.097800.103400.144000.097910.17520.05533...38.25155.001731.00.116600.192200.32150.16280.25720.066370
56616.6028.08108.30858.10.084550.102300.092510.053020.15900.05648...34.12126.701124.00.113900.309400.34030.14180.22180.078200
56720.6029.33140.101265.00.117800.277000.351400.152000.23970.07016...39.42184.601821.00.165000.868100.93870.26500.40870.124000
5687.7624.5447.92181.00.052630.043620.000000.000000.15870.05884...30.3759.16268.60.089960.064440.00000.00000.28710.070391
\n", "

569 rows × 31 columns

\n", "
" ], "text/plain": [ " mean radius mean texture mean perimeter mean area mean smoothness \\\n", "0 17.99 10.38 122.80 1001.0 0.11840 \n", "1 20.57 17.77 132.90 1326.0 0.08474 \n", "2 19.69 21.25 130.00 1203.0 0.10960 \n", "3 11.42 20.38 77.58 386.1 0.14250 \n", "4 20.29 14.34 135.10 1297.0 0.10030 \n", ".. ... ... ... ... ... \n", "564 21.56 22.39 142.00 1479.0 0.11100 \n", "565 20.13 28.25 131.20 1261.0 0.09780 \n", "566 16.60 28.08 108.30 858.1 0.08455 \n", "567 20.60 29.33 140.10 1265.0 0.11780 \n", "568 7.76 24.54 47.92 181.0 0.05263 \n", "\n", " mean compactness mean concavity mean concave points mean symmetry \\\n", "0 0.27760 0.30010 0.14710 0.2419 \n", "1 0.07864 0.08690 0.07017 0.1812 \n", "2 0.15990 0.19740 0.12790 0.2069 \n", "3 0.28390 0.24140 0.10520 0.2597 \n", "4 0.13280 0.19800 0.10430 0.1809 \n", ".. ... ... ... ... \n", "564 0.11590 0.24390 0.13890 0.1726 \n", "565 0.10340 0.14400 0.09791 0.1752 \n", "566 0.10230 0.09251 0.05302 0.1590 \n", "567 0.27700 0.35140 0.15200 0.2397 \n", "568 0.04362 0.00000 0.00000 0.1587 \n", "\n", " mean fractal dimension ... worst texture worst perimeter worst area \\\n", "0 0.07871 ... 17.33 184.60 2019.0 \n", "1 0.05667 ... 23.41 158.80 1956.0 \n", "2 0.05999 ... 25.53 152.50 1709.0 \n", "3 0.09744 ... 26.50 98.87 567.7 \n", "4 0.05883 ... 16.67 152.20 1575.0 \n", ".. ... ... ... ... ... \n", "564 0.05623 ... 26.40 166.10 2027.0 \n", "565 0.05533 ... 38.25 155.00 1731.0 \n", "566 0.05648 ... 34.12 126.70 1124.0 \n", "567 0.07016 ... 39.42 184.60 1821.0 \n", "568 0.05884 ... 30.37 59.16 268.6 \n", "\n", " worst smoothness worst compactness worst concavity \\\n", "0 0.16220 0.66560 0.7119 \n", "1 0.12380 0.18660 0.2416 \n", "2 0.14440 0.42450 0.4504 \n", "3 0.20980 0.86630 0.6869 \n", "4 0.13740 0.20500 0.4000 \n", ".. ... ... ... \n", "564 0.14100 0.21130 0.4107 \n", "565 0.11660 0.19220 0.3215 \n", "566 0.11390 0.30940 0.3403 \n", "567 0.16500 0.86810 0.9387 \n", "568 0.08996 0.06444 0.0000 \n", "\n", " worst concave points worst symmetry worst fractal dimension target \n", "0 0.2654 0.4601 0.11890 0 \n", "1 0.1860 0.2750 0.08902 0 \n", "2 0.2430 0.3613 0.08758 0 \n", "3 0.2575 0.6638 0.17300 0 \n", "4 0.1625 0.2364 0.07678 0 \n", ".. ... ... ... ... \n", "564 0.2216 0.2060 0.07115 0 \n", "565 0.1628 0.2572 0.06637 0 \n", "566 0.1418 0.2218 0.07820 0 \n", "567 0.2650 0.4087 0.12400 0 \n", "568 0.0000 0.2871 0.07039 1 \n", "\n", "[569 rows x 31 columns]" ] }, "execution_count": 10, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# 분류 데이터 불러오기\n", "import pandas as pd\n", "df = pd.read_csv('data/breast_cancer.csv')\n", "df" ] }, { "cell_type": "code", "execution_count": 13, "metadata": { "scrolled": true }, "outputs": [ { "data": { "text/plain": [ "mean radius 0\n", "mean texture 0\n", "mean perimeter 0\n", "mean area 0\n", "mean smoothness 0\n", "mean compactness 0\n", "mean concavity 0\n", "mean concave points 0\n", "mean symmetry 0\n", "mean fractal dimension 0\n", "radius error 0\n", "texture error 0\n", "perimeter error 0\n", "area error 0\n", "smoothness error 0\n", "compactness error 0\n", "concavity error 0\n", "concave points error 0\n", "symmetry error 0\n", "fractal dimension error 0\n", "worst radius 0\n", "worst texture 0\n", "worst perimeter 0\n", "worst area 0\n", "worst smoothness 0\n", "worst compactness 0\n", "worst concavity 0\n", "worst concave points 0\n", "worst symmetry 0\n", "worst fractal dimension 0\n", "target 0\n", "dtype: int64" ] }, "execution_count": 13, "metadata": {}, "output_type": "execute_result" } ], "source": [ "df.isna().sum() #결측치 조회" ] }, { "cell_type": "code", "execution_count": 15, "metadata": { "scrolled": true }, "outputs": [ { "data": { "text/plain": [ "mean radius float64\n", "mean texture float64\n", "mean perimeter float64\n", "mean area float64\n", "mean smoothness float64\n", "mean compactness float64\n", "mean concavity float64\n", "mean concave points float64\n", "mean symmetry float64\n", "mean fractal dimension float64\n", "radius error float64\n", "texture error float64\n", "perimeter error float64\n", "area error float64\n", "smoothness error float64\n", "compactness error float64\n", "concavity error float64\n", "concave points error float64\n", "symmetry error float64\n", "fractal dimension error float64\n", "worst radius float64\n", "worst texture float64\n", "worst perimeter float64\n", "worst area float64\n", "worst smoothness float64\n", "worst compactness float64\n", "worst concavity float64\n", "worst concave points float64\n", "worst symmetry float64\n", "worst fractal dimension float64\n", "target int64\n", "dtype: object" ] }, "execution_count": 15, "metadata": {}, "output_type": "execute_result" } ], "source": [ "df.dtypes #데이터 타입조회" ] }, { "cell_type": "code", "execution_count": 16, "metadata": { "scrolled": true }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
mean radiusmean texturemean perimetermean areamean smoothnessmean compactnessmean concavitymean concave pointsmean symmetrymean fractal dimension...worst radiusworst textureworst perimeterworst areaworst smoothnessworst compactnessworst concavityworst concave pointsworst symmetryworst fractal dimension
017.9910.38122.801001.00.118400.277600.300100.147100.24190.07871...25.38017.33184.602019.00.162200.665600.71190.26540.46010.11890
120.5717.77132.901326.00.084740.078640.086900.070170.18120.05667...24.99023.41158.801956.00.123800.186600.24160.18600.27500.08902
219.6921.25130.001203.00.109600.159900.197400.127900.20690.05999...23.57025.53152.501709.00.144400.424500.45040.24300.36130.08758
311.4220.3877.58386.10.142500.283900.241400.105200.25970.09744...14.91026.5098.87567.70.209800.866300.68690.25750.66380.17300
420.2914.34135.101297.00.100300.132800.198000.104300.18090.05883...22.54016.67152.201575.00.137400.205000.40000.16250.23640.07678
..................................................................
56421.5622.39142.001479.00.111000.115900.243900.138900.17260.05623...25.45026.40166.102027.00.141000.211300.41070.22160.20600.07115
56520.1328.25131.201261.00.097800.103400.144000.097910.17520.05533...23.69038.25155.001731.00.116600.192200.32150.16280.25720.06637
56616.6028.08108.30858.10.084550.102300.092510.053020.15900.05648...18.98034.12126.701124.00.113900.309400.34030.14180.22180.07820
56720.6029.33140.101265.00.117800.277000.351400.152000.23970.07016...25.74039.42184.601821.00.165000.868100.93870.26500.40870.12400
5687.7624.5447.92181.00.052630.043620.000000.000000.15870.05884...9.45630.3759.16268.60.089960.064440.00000.00000.28710.07039
\n", "

569 rows × 30 columns

\n", "
" ], "text/plain": [ " mean radius mean texture mean perimeter mean area mean smoothness \\\n", "0 17.99 10.38 122.80 1001.0 0.11840 \n", "1 20.57 17.77 132.90 1326.0 0.08474 \n", "2 19.69 21.25 130.00 1203.0 0.10960 \n", "3 11.42 20.38 77.58 386.1 0.14250 \n", "4 20.29 14.34 135.10 1297.0 0.10030 \n", ".. ... ... ... ... ... \n", "564 21.56 22.39 142.00 1479.0 0.11100 \n", "565 20.13 28.25 131.20 1261.0 0.09780 \n", "566 16.60 28.08 108.30 858.1 0.08455 \n", "567 20.60 29.33 140.10 1265.0 0.11780 \n", "568 7.76 24.54 47.92 181.0 0.05263 \n", "\n", " mean compactness mean concavity mean concave points mean symmetry \\\n", "0 0.27760 0.30010 0.14710 0.2419 \n", "1 0.07864 0.08690 0.07017 0.1812 \n", "2 0.15990 0.19740 0.12790 0.2069 \n", "3 0.28390 0.24140 0.10520 0.2597 \n", "4 0.13280 0.19800 0.10430 0.1809 \n", ".. ... ... ... ... \n", "564 0.11590 0.24390 0.13890 0.1726 \n", "565 0.10340 0.14400 0.09791 0.1752 \n", "566 0.10230 0.09251 0.05302 0.1590 \n", "567 0.27700 0.35140 0.15200 0.2397 \n", "568 0.04362 0.00000 0.00000 0.1587 \n", "\n", " mean fractal dimension ... worst radius worst texture \\\n", "0 0.07871 ... 25.380 17.33 \n", "1 0.05667 ... 24.990 23.41 \n", "2 0.05999 ... 23.570 25.53 \n", "3 0.09744 ... 14.910 26.50 \n", "4 0.05883 ... 22.540 16.67 \n", ".. ... ... ... ... \n", "564 0.05623 ... 25.450 26.40 \n", "565 0.05533 ... 23.690 38.25 \n", "566 0.05648 ... 18.980 34.12 \n", "567 0.07016 ... 25.740 39.42 \n", "568 0.05884 ... 9.456 30.37 \n", "\n", " worst perimeter worst area worst smoothness worst compactness \\\n", "0 184.60 2019.0 0.16220 0.66560 \n", "1 158.80 1956.0 0.12380 0.18660 \n", "2 152.50 1709.0 0.14440 0.42450 \n", "3 98.87 567.7 0.20980 0.86630 \n", "4 152.20 1575.0 0.13740 0.20500 \n", ".. ... ... ... ... \n", "564 166.10 2027.0 0.14100 0.21130 \n", "565 155.00 1731.0 0.11660 0.19220 \n", "566 126.70 1124.0 0.11390 0.30940 \n", "567 184.60 1821.0 0.16500 0.86810 \n", "568 59.16 268.6 0.08996 0.06444 \n", "\n", " worst concavity worst concave points worst symmetry \\\n", "0 0.7119 0.2654 0.4601 \n", "1 0.2416 0.1860 0.2750 \n", "2 0.4504 0.2430 0.3613 \n", "3 0.6869 0.2575 0.6638 \n", "4 0.4000 0.1625 0.2364 \n", ".. ... ... ... \n", "564 0.4107 0.2216 0.2060 \n", "565 0.3215 0.1628 0.2572 \n", "566 0.3403 0.1418 0.2218 \n", "567 0.9387 0.2650 0.4087 \n", "568 0.0000 0.0000 0.2871 \n", "\n", " worst fractal dimension \n", "0 0.11890 \n", "1 0.08902 \n", "2 0.08758 \n", "3 0.17300 \n", "4 0.07678 \n", ".. ... \n", "564 0.07115 \n", "565 0.06637 \n", "566 0.07820 \n", "567 0.12400 \n", "568 0.07039 \n", "\n", "[569 rows x 30 columns]" ] }, "execution_count": 16, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# 특성 추출 [행, 열]\n", "X = df.iloc[:, :-1]\n", "X" ] }, { "cell_type": "code", "execution_count": 7, "metadata": { "scrolled": true }, "outputs": [ { "data": { "text/plain": [ "0 0\n", "1 0\n", "2 0\n", "3 0\n", "4 0\n", " ..\n", "564 0\n", "565 0\n", "566 0\n", "567 0\n", "568 1\n", "Name: target, Length: 569, dtype: int64" ] }, "execution_count": 7, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# 레이블 추출\n", "Y = df.iloc[:, -1]\n", "Y" ] }, { "cell_type": "code", "execution_count": 8, "metadata": {}, "outputs": [], "source": [ "# 데이터 분할 (학습 및 평가)\n", "from sklearn.model_selection import train_test_split\n", "x_train, x_test, y_train, y_test = train_test_split(X, Y, random_state=0)" ] }, { "cell_type": "code", "execution_count": 61, "metadata": {}, "outputs": [], "source": [ "# 모델 생성 및 학습\n", "from sklearn.ensemble import RandomForestClassifier\n", "rf = RandomForestClassifier().fit(x_train, y_train)" ] }, { "cell_type": "code", "execution_count": 62, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "(1.0, 0.972027972027972)" ] }, "execution_count": 62, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# 모델 정확도 확인\n", "rf.score(x_train, y_train), rf.score(x_test, y_test)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "# 분류 모델 평가 지표" ] }, { "cell_type": "code", "execution_count": 63, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "array([0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 0, 0, 0, 0, 0,\n", " 1, 1, 0, 1, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 0, 1, 0, 1,\n", " 1, 0, 1, 1, 1, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 0, 0, 0, 1, 1, 0, 1,\n", " 0, 0, 0, 1, 1, 0, 1, 0, 0, 1, 1, 1, 1, 1, 0, 0, 0, 1, 0, 1, 1, 1,\n", " 0, 0, 1, 0, 1, 0, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 0, 1, 0, 1, 0, 0,\n", " 1, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 0, 1, 1, 1, 1, 1, 0, 1,\n", " 1, 1, 1, 1, 1, 0, 0, 1, 1, 1, 0], dtype=int64)" ] }, "execution_count": 63, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# 실제값 확인\n", "y_test.values" ] }, { "cell_type": "code", "execution_count": 64, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "array([0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0,\n", " 1, 1, 0, 1, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 0, 1, 0, 1,\n", " 1, 0, 1, 1, 1, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 0, 0, 0, 1, 1, 0, 1,\n", " 0, 0, 0, 1, 1, 0, 1, 1, 0, 1, 1, 1, 1, 1, 0, 0, 0, 1, 0, 1, 1, 1,\n", " 0, 0, 1, 0, 1, 0, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 0, 1, 0, 1, 0, 0,\n", " 1, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 0, 1, 1, 1, 1, 1, 0, 1,\n", " 1, 1, 1, 1, 1, 0, 0, 1, 1, 1, 0], dtype=int64)" ] }, "execution_count": 64, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# 예측값 확인\n", "p_test = rf.predict(x_test)\n", "p_test" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## 정확도\n", "- 실제값과 예측값이 얼마나 일치하는지 비율\n", "- (TP + TN) / (TP + FP + FN + TN)" ] }, { "cell_type": "code", "execution_count": 65, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "0.972027972027972" ] }, "execution_count": 65, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# 정확도\n", "from sklearn.metrics import accuracy_score\n", "accuracy_score(y_test, p_test)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## 혼동행렬\n", "![](https://i.imgur.com/E4djUzb.png)" ] }, { "cell_type": "code", "execution_count": 66, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "(52, 1, 3, 87)" ] }, "execution_count": 66, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# 혼동행렬\n", "from sklearn.metrics import confusion_matrix\n", "tn, fp, fn, tp = confusion_matrix(y_test, p_test).ravel()\n", "tn, fp, fn, tp" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## 정밀도 (precision)\n", "- 양성으로 예측한 값(TP+FP)중 실제 양성 값(TP)의 비율\n", " - 양성 예측의 정확도 \n", "- TP / (TP + FP)" ] }, { "cell_type": "code", "execution_count": 67, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "0.9666666666666667" ] }, "execution_count": 67, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# 정밀도\n", "from sklearn.metrics import recall_score\n", "recall_score(y_test, p_test)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## 재현율 (recall)\n", "- 실제 양성값(TP+FN)중 양성으로 잘 예측한 값(TP)의 비율\n", "- TP / (TP + FN)\n", "- 민감도(sensitivity), 참 양성 비율 (true positive rate)라고도 함" ] }, { "cell_type": "code", "execution_count": 68, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "0.9886363636363636" ] }, "execution_count": 68, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# 재현율\n", "from sklearn.metrics import precision_score\n", "precision_score(y_test, p_test)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## F1 Score\n", "- 정밀도와 재현율의 조화평균\n", " - 정밀도와 재현율을 동시에 사용할때 사용\n", "- 2 * (precision x recall) / (precision + recall)" ] }, { "cell_type": "code", "execution_count": 69, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "0.9775280898876404" ] }, "execution_count": 69, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# F1-Score\n", "from sklearn.metrics import f1_score\n", "f1_score(y_test, p_test)" ] }, { "cell_type": "code", "execution_count": 70, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ " precision recall f1-score support\n", "\n", " 0 0.95 0.98 0.96 53\n", " 1 0.99 0.97 0.98 90\n", "\n", " accuracy 0.97 143\n", " macro avg 0.97 0.97 0.97 143\n", "weighted avg 0.97 0.97 0.97 143\n", "\n" ] } ], "source": [ "from sklearn.metrics import classification_report\n", "print(classification_report(y_test, p_test))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## ROC-AUC\n", "- 참 양성 비율(TPR)과 거짓 양성 비율(FPR)을 나타낸 곡선\n", "- AUC는 ROC 곡선의 아랫 면적을 의미" ] }, { "cell_type": "code", "execution_count": 71, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "(array([0. , 0.01886792, 1. ]),\n", " array([0. , 0.96666667, 1. ]),\n", " array([2, 1, 0], dtype=int64))" ] }, "execution_count": 71, "metadata": {}, "output_type": "execute_result" } ], "source": [ "from sklearn.metrics import roc_curve\n", "fpr, tpr, thresholds = roc_curve(y_test, p_test)\n", "fpr, tpr, thresholds" ] }, { "cell_type": "code", "execution_count": 72, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "0.9738993710691825" ] }, "execution_count": 72, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# AUC 계산\n", "from sklearn.metrics import auc\n", "auc_score = auc(fpr, tpr) # RoC Curve를 그리는 요소인 fpr, tpr\n", "auc_score" ] }, { "cell_type": "code", "execution_count": 73, "metadata": {}, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "# Roc Curve 시각화\n", "import matplotlib.pyplot as plt\n", "label = \"RandomForest (AUC : %.2f)\" % auc_score\n", "plt.plot([0, 1], [0, 1], 'k--', label=\"Random Prediction\")\n", "plt.plot(fpr, tpr, label=label)\n", "plt.xlabel('False Positive Rate')\n", "plt.ylabel('True Positive Rate')\n", "plt.legend()\n", "plt.show()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "# 회귀 (Regression)\n", "- 독립변수(특성)과 종속변수(레이블)간 관계를 모델링하는 방법\n", "- 레이블 또는 타겟이 연속형일때 사용\n", "- 독립변수와 종속변수의 관계를 기반으로 최적의 회귀 계수를 찾음" ] }, { "cell_type": "code", "execution_count": 74, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
CRIMZNINDUSCHASNOXRMAGEDISRADTAXPTRATIOBLSTATtarget
00.0063218.02.310.00.5386.57565.24.09001.0296.015.3396.904.9824.0
10.027310.07.070.00.4696.42178.94.96712.0242.017.8396.909.1421.6
20.027290.07.070.00.4697.18561.14.96712.0242.017.8392.834.0334.7
30.032370.02.180.00.4586.99845.86.06223.0222.018.7394.632.9433.4
40.069050.02.180.00.4587.14754.26.06223.0222.018.7396.905.3336.2
.............................................
5010.062630.011.930.00.5736.59369.12.47861.0273.021.0391.999.6722.4
5020.045270.011.930.00.5736.12076.72.28751.0273.021.0396.909.0820.6
5030.060760.011.930.00.5736.97691.02.16751.0273.021.0396.905.6423.9
5040.109590.011.930.00.5736.79489.32.38891.0273.021.0393.456.4822.0
5050.047410.011.930.00.5736.03080.82.50501.0273.021.0396.907.8811.9
\n", "

506 rows × 14 columns

\n", "
" ], "text/plain": [ " CRIM ZN INDUS CHAS NOX RM AGE DIS RAD TAX \\\n", "0 0.00632 18.0 2.31 0.0 0.538 6.575 65.2 4.0900 1.0 296.0 \n", "1 0.02731 0.0 7.07 0.0 0.469 6.421 78.9 4.9671 2.0 242.0 \n", "2 0.02729 0.0 7.07 0.0 0.469 7.185 61.1 4.9671 2.0 242.0 \n", "3 0.03237 0.0 2.18 0.0 0.458 6.998 45.8 6.0622 3.0 222.0 \n", "4 0.06905 0.0 2.18 0.0 0.458 7.147 54.2 6.0622 3.0 222.0 \n", ".. ... ... ... ... ... ... ... ... ... ... \n", "501 0.06263 0.0 11.93 0.0 0.573 6.593 69.1 2.4786 1.0 273.0 \n", "502 0.04527 0.0 11.93 0.0 0.573 6.120 76.7 2.2875 1.0 273.0 \n", "503 0.06076 0.0 11.93 0.0 0.573 6.976 91.0 2.1675 1.0 273.0 \n", "504 0.10959 0.0 11.93 0.0 0.573 6.794 89.3 2.3889 1.0 273.0 \n", "505 0.04741 0.0 11.93 0.0 0.573 6.030 80.8 2.5050 1.0 273.0 \n", "\n", " PTRATIO B LSTAT target \n", "0 15.3 396.90 4.98 24.0 \n", "1 17.8 396.90 9.14 21.6 \n", "2 17.8 392.83 4.03 34.7 \n", "3 18.7 394.63 2.94 33.4 \n", "4 18.7 396.90 5.33 36.2 \n", ".. ... ... ... ... \n", "501 21.0 391.99 9.67 22.4 \n", "502 21.0 396.90 9.08 20.6 \n", "503 21.0 396.90 5.64 23.9 \n", "504 21.0 393.45 6.48 22.0 \n", "505 21.0 396.90 7.88 11.9 \n", "\n", "[506 rows x 14 columns]" ] }, "execution_count": 74, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# 분류 데이터 불러오기\n", "import pandas as pd\n", "df = pd.read_csv('data/boston.csv')\n", "df" ] }, { "cell_type": "code", "execution_count": null, "metadata": {}, "outputs": [], "source": [ "# 특성 추출\n", "X = df.iloc[:, :-1]" ] }, { "cell_type": "code", "execution_count": 88, "metadata": {}, "outputs": [], "source": [ "# 특성 추출\n", "X = df.iloc[:, :-1]\n", "X = df.loc[:, 'CRIM':'LSTAT'] # 끝 포함\n", "X = df[['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT']]\n", "X = df.drop('target', axis=1)\n", "X = df.loc[: , df.columns != 'target']\n", "X" ] }, { "cell_type": "code", "execution_count": 91, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "0 24.0\n", "1 21.6\n", "2 34.7\n", "3 33.4\n", "4 36.2\n", " ... \n", "501 22.4\n", "502 20.6\n", "503 23.9\n", "504 22.0\n", "505 11.9\n", "Name: target, Length: 506, dtype: float64" ] }, "execution_count": 91, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# 레이블 추출\n", "Y = df.iloc[:, -1]\n", "Y" ] }, { "cell_type": "code", "execution_count": 92, "metadata": {}, "outputs": [], "source": [ "# 데이터 분할 (학습 및 평가)\n", "from sklearn.model_selection import train_test_split\n", "x_train, x_test, y_train, y_test = train_test_split(X, Y, random_state=0)" ] }, { "cell_type": "code", "execution_count": 93, "metadata": {}, "outputs": [], "source": [ "# 모델 생성 및 학습\n", "from sklearn.ensemble import RandomForestRegressor\n", "rf = RandomForestRegressor().fit(x_train, y_train)" ] }, { "cell_type": "code", "execution_count": 94, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "(0.9825758296955616, 0.8012845818434341)" ] }, "execution_count": 94, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# 모델 정확도 확인\n", "rf.score(x_train, y_train), rf.score(x_test, y_test)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "# 회귀 모델 평가 지표" ] }, { "cell_type": "code", "execution_count": 95, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "array([22.6, 50. , 23. , 8.3, 21.2, 19.9, 20.6, 18.7, 16.1, 18.6, 8.8,\n", " 17.2, 14.9, 10.5, 50. , 29. , 23. , 33.3, 29.4, 21. , 23.8, 19.1,\n", " 20.4, 29.1, 19.3, 23.1, 19.6, 19.4, 38.7, 18.7, 14.6, 20. , 20.5,\n", " 20.1, 23.6, 16.8, 5.6, 50. , 14.5, 13.3, 23.9, 20. , 19.8, 13.8,\n", " 16.5, 21.6, 20.3, 17. , 11.8, 27.5, 15.6, 23.1, 24.3, 42.8, 15.6,\n", " 21.7, 17.1, 17.2, 15. , 21.7, 18.6, 21. , 33.1, 31.5, 20.1, 29.8,\n", " 15.2, 15. , 27.5, 22.6, 20. , 21.4, 23.5, 31.2, 23.7, 7.4, 48.3,\n", " 24.4, 22.6, 18.3, 23.3, 17.1, 27.9, 44.8, 50. , 23. , 21.4, 10.2,\n", " 23.3, 23.2, 18.9, 13.4, 21.9, 24.8, 11.9, 24.3, 13.8, 24.7, 14.1,\n", " 18.7, 28.1, 19.8, 26.7, 21.7, 22. , 22.9, 10.4, 21.9, 20.6, 26.4,\n", " 41.3, 17.2, 27.1, 20.4, 16.5, 24.4, 8.4, 23. , 9.7, 50. , 30.5,\n", " 12.3, 19.4, 21.2, 20.3, 18.8, 33.4])" ] }, "execution_count": 95, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# 실제값 확인\n", "y_test.values" ] }, { "cell_type": "code", "execution_count": 96, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "array([24.272, 30.284, 22.11 , 10.697, 20.457, 20.859, 21.178, 20.233,\n", " 20.753, 19.135, 8.033, 15.003, 14.717, 8.337, 47.728, 33.837,\n", " 21.156, 34.412, 25.156, 21.325, 23.781, 21.864, 19.865, 24.319,\n", " 20.274, 18.422, 18.651, 16.081, 43.988, 18.644, 14.517, 17.321,\n", " 20.823, 20.661, 23.108, 17.225, 8.028, 30.526, 14.242, 14.369,\n", " 22.877, 20.658, 23.068, 14.646, 23.489, 22.694, 20.008, 16.508,\n", " 14.723, 25.036, 16.622, 19.53 , 21.684, 39.522, 15.004, 19.732,\n", " 19.469, 19.045, 24.337, 20.122, 21.234, 21.167, 32.905, 27.583,\n", " 17.887, 26.377, 15.755, 17.755, 20.099, 21.747, 19.879, 23.054,\n", " 24.162, 31.294, 30.986, 8.372, 42.581, 21.699, 22.969, 20.244,\n", " 26.608, 17.672, 22.898, 41.882, 41.265, 24.368, 23.172, 14.707,\n", " 25.49 , 16.19 , 18.824, 12.178, 22.39 , 29.974, 21.577, 22.107,\n", " 12.37 , 23.181, 14.598, 19.398, 24.101, 19.845, 28.313, 21.179,\n", " 28.423, 19.866, 8.407, 19.233, 21.362, 23.47 , 31.357, 12.678,\n", " 18.037, 18.65 , 17.192, 20.837, 9.702, 19.631, 9.414, 46.653,\n", " 29.494, 10.237, 19.093, 21.333, 21.142, 18.681, 35.013])" ] }, "execution_count": 96, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# 예측값 확인\n", "p_test = rf.predict(x_test)\n", "p_test" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## R Squared\n", "- 회귀직선의 적합도를 평가하거나 종속변수(레이블)에 대한 독립변수(특성)의 설명력을 알고싶을때 사용" ] }, { "cell_type": "code", "execution_count": 98, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "0.7213662707778133" ] }, "execution_count": 98, "metadata": {}, "output_type": "execute_result" } ], "source": [ "from sklearn.metrics import r2_score\n", "r2_score(p_test, y_test)\n", "# 최악 -inf, 최고 1" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## MAE\n", "- 예측값과 실제값의 차이인 오차 절댓값 평균\n", "- 기존 레이블의 단위를 그대로 활용할 수 있음" ] }, { "cell_type": "code", "execution_count": 102, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "2.5740472440944897" ] }, "execution_count": 102, "metadata": {}, "output_type": "execute_result" } ], "source": [ "from sklearn.metrics import mean_absolute_error\n", "mean_absolute_error(p_test, y_test)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## MSE\n", "- 예측값과 실제값의 차이인 오차 제곱 평균\n", "- 제곱을 하기 때문에 특이치(아웃라이어)에 민감" ] }, { "cell_type": "code", "execution_count": 103, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "16.234854015748038" ] }, "execution_count": 103, "metadata": {}, "output_type": "execute_result" } ], "source": [ "from sklearn.metrics import mean_squared_error\n", "mean_squared_error(p_test, y_test)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## RMSE\n", "- MSE 지표에 루트를 적용한 결과\n", "- 오류 지표를 실제 값과 유사한 단위로 변환해 해석이 용이해짐" ] }, { "cell_type": "code", "execution_count": 104, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "4.029249808059564" ] }, "execution_count": 104, "metadata": {}, "output_type": "execute_result" } ], "source": [ "from sklearn.metrics import mean_squared_error\n", "mean_squared_error(p_test, y_test) ** 0.5" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## MSLE\n", "- MSE방식에 로그를 적용한 것\n", "- 결정 값이 클수록 오류값도 커지기 때문에 일부 큰 오류값들로 인해 전체 오류값이 커지는 것을 막아줌" ] }, { "cell_type": "code", "execution_count": 105, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "0.02428535183373342" ] }, "execution_count": 105, "metadata": {}, "output_type": "execute_result" } ], "source": [ "from sklearn.metrics import mean_squared_log_error\n", "mean_squared_log_error(p_test, y_test)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## RMSLE\n", "- 아웃라이어에 덜 민감함 (robust)\n", " - 값의 변동폭이 크지 않음\n", "- 상대적 Error를 측정함\n", " - 예측값 = 100, 실제값 = 90일 때, RMSLE = 0.1053, RMSE = 10\n", " - 예측값 = 10,000, 실제값 = 9,000일 때, RMSLE = 0.1053, RMSE = 1,000\n", "- Under Estimation에 큰 패널티를 부여" ] }, { "cell_type": "code", "execution_count": 32, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "0.15788148332339436" ] }, "execution_count": 32, "metadata": {}, "output_type": "execute_result" } ], "source": [ "from sklearn.metrics import mean_squared_log_error\n", "mean_squared_log_error(p_test, y_test, squared=False)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "# 데이터 인코딩\n", "- 레이블 인코딩 (label encoding)\n", " - 범주형 데이터를 숫자로 일대일 매핑해주는 인코딩 방식\n", " - 범주형 데이터를 숫자로 치환\n", " - scikit-learn의 LabelEncoder로 변환 가능\n", " - 명목형 데이터를 레이블 인코딩 하는 경우 모델의 성능이 떨어짐\n", " - 바나나(0)와 사과(2)보다 복숭아(1)와 더 비슷하다고 판단\n", " - 바나나, 사과, 복숭아는 별개의 데이터임" ] }, { "cell_type": "code", "execution_count": 107, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "array(['사과', '복숭아', '바나나', '키위', '사과', '바나나', '복숭아', '사과'], dtype='\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
바나나복숭아사과키위
00010
10100
21000
30001
40010
51000
60100
70010
\n", "" ], "text/plain": [ " 바나나 복숭아 사과 키위\n", "0 0 0 1 0\n", "1 0 1 0 0\n", "2 1 0 0 0\n", "3 0 0 0 1\n", "4 0 0 1 0\n", "5 1 0 0 0\n", "6 0 1 0 0\n", "7 0 0 1 0" ] }, "execution_count": 111, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# Pandas 활용\n", "pd.get_dummies(data)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "# 스케일링\n", "- 서로 다른 특성 값의 범위(단위)를 일치하도록 값을 조정하는 방법\n", " - 값의 범위가 데이터마다 다르면 모델 훈련이 제대로 안 될 수도 있음\n", "\n", "## 최소최대정규화 (min max normalization)\n", "- 특성 값 범위를 0(최소) ~ 1(최대)로 조정하는 기법\n", " - (X - MIN) / (MAX - MIN)\n", "\n", "- scikit-learn의 MinMaxScaler로 변환 가능" ] }, { "cell_type": "code", "execution_count": 112, "metadata": {}, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "plt.boxplot(X)\n", "plt.show()" ] }, { "cell_type": "code", "execution_count": 115, "metadata": {}, "outputs": [], "source": [ "from sklearn.preprocessing import MinMaxScaler\n", "scaler = MinMaxScaler()\n", "X_Scaled = scaler.fit_transform(X)" ] }, { "cell_type": "code", "execution_count": 116, "metadata": {}, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "plt.boxplot(X_Scaled)\n", "plt.show()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## 표준화 (standardization)\n", "- 평균이 0, 표준편차가 1이 되도록 조정하는 기법\n", " - 표준정규분포로 변환\n", " - (X - MEAN) / STD\n", "- scikit-learn의 StandardScaler로 변환 가능" ] }, { "cell_type": "code", "execution_count": 117, "metadata": {}, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "plt.boxplot(X)\n", "plt.show()" ] }, { "cell_type": "code", "execution_count": 118, "metadata": {}, "outputs": [], "source": [ "from sklearn.preprocessing import StandardScaler\n", "scaler = StandardScaler()\n", "X_Scaled = scaler.fit_transform(X)" ] }, { "cell_type": "code", "execution_count": 119, "metadata": {}, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "plt.boxplot(X_Scaled)\n", "plt.show()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "# 데이터 분할\n", "\n", "- 머신러닝을 통해 우리가 하고자 하는것은 **예측**\n", "- 일반적으로 학습데이터로 모델을 학습하고 평가데이터로 모델의 성능을 측정함\n", " - 평가 데이터 세트가 없는 경우 데이터중 일부를 평가 데이터로 지정\n", " - train_test_split 함수 이용\n", "- 만약 평가데이터를 이용하지 않는 경우 과대적합이 발생하고 모델 성능 확인이 어려움" ] }, { "cell_type": "code", "execution_count": 120, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "((379, 13), (379,), (127, 13), (127,))" ] }, "execution_count": 120, "metadata": {}, "output_type": "execute_result" } ], "source": [ "from sklearn.model_selection import train_test_split\n", "x_train, x_test, y_train, y_test = train_test_split(X, Y, random_state=0) # 셔플 후 데이터 분할\n", "x_train.shape, y_train.shape, x_test.shape, y_test.shape" ] }, { "cell_type": "code", "execution_count": 124, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "((404, 13), (404,), (102, 13), (102,))" ] }, "execution_count": 124, "metadata": {}, "output_type": "execute_result" } ], "source": [ "x_train, x_test, y_train, y_test = train_test_split(X, Y, test_size=0.2, random_state=0) # 평가데이터 비율 조정\n", "x_train.shape, y_train.shape, x_test.shape, y_test.shape" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "# K Fold Cross Validation\n", "1) 전체 데이터를 K개의 그룹으로 나눔\n", "\n", "2) 1개의 Fold는 평가 나머지는 학습으로 사용\n", "\n", "3) 각각의 Fold가 한번씩 평가데이터로 사용하여 결과를 평균\n", "\n", "![](https://i.imgur.com/QxHgiXb.png)" ] }, { "cell_type": "code", "execution_count": 122, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])" ] }, "execution_count": 122, "metadata": {}, "output_type": "execute_result" } ], "source": [ "from sklearn.model_selection import KFold\n", "data = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])\n", "data" ] }, { "cell_type": "code", "execution_count": 123, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "학습 : [2 3 4 5 6 7 8 9], 평가 : [0 1]\n", "학습 : [0 1 4 5 6 7 8 9], 평가 : [2 3]\n", "학습 : [0 1 2 3 6 7 8 9], 평가 : [4 5]\n", "학습 : [0 1 2 3 4 5 8 9], 평가 : [6 7]\n", "학습 : [0 1 2 3 4 5 6 7], 평가 : [8 9]\n" ] } ], "source": [ "folds = KFold(n_splits=5, shuffle=False)\n", "\n", "for train_index, test_index in folds.split(data):\n", " print(f'학습 : {data[train_index]}, 평가 : {data[test_index]}')" ] }, { "cell_type": "code", "execution_count": 47, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "학습 : [0 1 2 4 6 7 8 9], 평가 : [3 5]\n", "학습 : [0 2 3 4 5 7 8 9], 평가 : [1 6]\n", "학습 : [1 3 4 5 6 7 8 9], 평가 : [0 2]\n", "학습 : [0 1 2 3 5 6 7 8], 평가 : [4 9]\n", "학습 : [0 1 2 3 4 5 6 9], 평가 : [7 8]\n" ] } ], "source": [ "folds = KFold(n_splits=5, shuffle=True)\n", "for train_index, test_index in folds.split(data):\n", " print(f'학습 : {data[train_index]}, 평가 : {data[test_index]}')" ] }, { "cell_type": "code", "execution_count": null, "metadata": {}, "outputs": [], "source": [] }, { "cell_type": "code", "execution_count": null, "metadata": {}, "outputs": [], "source": [] }, { "cell_type": "code", "execution_count": null, "metadata": {}, "outputs": [], "source": [] } ], "metadata": { "kernelspec": { "display_name": "Python 3", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.7.4" } }, "nbformat": 4, "nbformat_minor": 5 }