{ "cells": [ { "cell_type": "markdown", "id": "97ea11e7-1416-4cc5-aa59-eb00dd2b2090", "metadata": {}, "source": [ "### 분류 실습 - 캐글 신용카드 사기 검출\n", "\n", "- 캐글의 신용카드 데이터 세트를 이용해 신용카드 사기 검출 분류 실습\n", "- 코드의 빈칸(###) 채우거나 물음에 답하면 됨\n", "\n", "1. 데이터 일차 가공 및 모델 학습/예측/평가\n", "2. 이상치 데이터 제거 후 모델 학습/예측/평가" ] }, { "cell_type": "markdown", "id": "db9e0f12-aba8-464b-b9c9-65eae04ef4e1", "metadata": {}, "source": [ "#### 1. 데이터 일차 가공 및 모델 학습/예측/평가\n", "\n", "밑의 주소를 클릭하여 creaditcard.csv 파일 다운받기 \\\n", "https://www.kaggle.com/datasets/mlg-ulb/creditcardfraud" ] }, { "cell_type": "code", "execution_count": 1, "id": "ec3c46b8-0e05-4050-b60e-17199e302d86", "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
TimeV1V2V3V4V5V6V7V8V9...V21V22V23V24V25V26V27V28AmountClass
00.0-1.359807-0.0727812.5363471.378155-0.3383210.4623880.2395990.0986980.363787...-0.0183070.277838-0.1104740.0669280.128539-0.1891150.133558-0.021053149.620
10.01.1918570.2661510.1664800.4481540.060018-0.082361-0.0788030.085102-0.255425...-0.225775-0.6386720.101288-0.3398460.1671700.125895-0.0089830.0147242.690
21.0-1.358354-1.3401631.7732090.379780-0.5031981.8004990.7914610.247676-1.514654...0.2479980.7716790.909412-0.689281-0.327642-0.139097-0.055353-0.059752378.660
31.0-0.966272-0.1852261.792993-0.863291-0.0103091.2472030.2376090.377436-1.387024...-0.1083000.005274-0.190321-1.1755750.647376-0.2219290.0627230.061458123.500
42.0-1.1582330.8777371.5487180.403034-0.4071930.0959210.592941-0.2705330.817739...-0.0094310.798278-0.1374580.141267-0.2060100.5022920.2194220.21515369.990
\n", "

5 rows × 31 columns

\n", "
" ], "text/plain": [ " Time V1 V2 V3 V4 V5 V6 V7 \\\n", "0 0.0 -1.359807 -0.072781 2.536347 1.378155 -0.338321 0.462388 0.239599 \n", "1 0.0 1.191857 0.266151 0.166480 0.448154 0.060018 -0.082361 -0.078803 \n", "2 1.0 -1.358354 -1.340163 1.773209 0.379780 -0.503198 1.800499 0.791461 \n", "3 1.0 -0.966272 -0.185226 1.792993 -0.863291 -0.010309 1.247203 0.237609 \n", "4 2.0 -1.158233 0.877737 1.548718 0.403034 -0.407193 0.095921 0.592941 \n", "\n", " V8 V9 ... V21 V22 V23 V24 V25 \\\n", "0 0.098698 0.363787 ... -0.018307 0.277838 -0.110474 0.066928 0.128539 \n", "1 0.085102 -0.255425 ... -0.225775 -0.638672 0.101288 -0.339846 0.167170 \n", "2 0.247676 -1.514654 ... 0.247998 0.771679 0.909412 -0.689281 -0.327642 \n", "3 0.377436 -1.387024 ... -0.108300 0.005274 -0.190321 -1.175575 0.647376 \n", "4 -0.270533 0.817739 ... -0.009431 0.798278 -0.137458 0.141267 -0.206010 \n", "\n", " V26 V27 V28 Amount Class \n", "0 -0.189115 0.133558 -0.021053 149.62 0 \n", "1 0.125895 -0.008983 0.014724 2.69 0 \n", "2 -0.139097 -0.055353 -0.059752 378.66 0 \n", "3 -0.221929 0.062723 0.061458 123.50 0 \n", "4 0.502292 0.219422 0.215153 69.99 0 \n", "\n", "[5 rows x 31 columns]" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# 다운로드 받은 creditcard.csv 파일을 DataFrame 으로 로딩하기\n", "import pandas as pd\n", "import numpy as np\n", "import matplotlib.pyplot as plt \n", "import warnings \n", "warnings.filterwarnings(\"ignore\") \n", "%matplotlib inline\n", "\n", "card_df = pd.read_csv('creditcard.csv') \n", "card_df.####()" ] }, { "cell_type": "markdown", "id": "110027ae-68a6-4117-acd1-c8e78869aff1", "metadata": {}, "source": [ "- Amount 피처는 신용카드 트랜잭션 금액을 의미\n", "- Class 는 레이블로서 0의 경우 정상, 1의 경우 사기 트랜잭션" ] }, { "cell_type": "code", "execution_count": 5, "id": "706b2203-6887-4557-b8cb-9ec4a733ec07", "metadata": {}, "outputs": [], "source": [ "# info() 를 사용하여 데이터의 결측치와 형태 확인하는 코드 작성하기" ] }, { "cell_type": "code", "execution_count": 49, "id": "e0da9765-4a52-4436-83f6-8ba10f87eaa3", "metadata": {}, "outputs": [], "source": [ "# 예측 성능을 비교하기 위해 인자로 인력된 DataFrame 을 복사한 뒤 이를 가공하여 반환하는 get_preprocessed_df() 함수와\n", "# 데이터 가공 후 학습/테스트 데이터 세트를 반환하는 get_train_test_df() 함수 생성\n", "\n", "from sklearn.model_selection import ################\n", "\n", "# Time 피처는 데이터 생성 관련한 작업용 속성으로서 큰 의미가 없기 때문에 제거하는 코드 작성\n", "# 인자로 입력받은 DataFrame을 복사한 뒤 Time 칼럼만 삭제하고 복사된 DataFrame 반환 \n", "\n", "def get_preprocessed_df(df=None) :\n", " df_copy = df.copy()\n", " df_copy.####('Time', axis=1, inplace=True)\n", " return df_copy" ] }, { "cell_type": "code", "execution_count": 50, "id": "5954214e-4150-4866-a83f-a248e9c75313", "metadata": {}, "outputs": [], "source": [ "# 사전 데이터 가공 후 학습과 테스트 데이터 세트를 반환하는 함수.\n", "def get_train_test_dataset(df=None):\n", " \n", " # 인자로 입력된 DataFrame의 사전 데이터 가공이 완료된 복사 DataFrame 반환\n", " df_copy = get_preprocessed_df(df)\n", " \n", " # DataFrame의 맨 마지막 칼럼이 레이블, 나머지는 피처들\n", " X_features = df_copy.iloc[:, :-1]\n", " y_target = df_copy.iloc[:, -1]\n", " \n", " # train_test_split( )으로 학습과 테스트 데이터 분할. stratify=y_target으로 Stratified 기반 분할 \n", " X_train, X_test, y_train, y_test = \\\n", " train_test_split(X_features, y_target, test_size=0.3, random_state=0, stratify=y_target)\n", " \n", " # 학습과 테스트 데이터 세트 반환\n", " return X_train, X_test, y_train, y_test\n", "\n", "X_train, X_test, y_train, y_test = #####################(card_df)" ] }, { "cell_type": "code", "execution_count": 51, "id": "7a52e465-c44a-4497-8134-30c4acf0049a", "metadata": {}, "outputs": [], "source": [ "# 생성한 학습 데이터 세트와 테스트 데이터 세트의 레이블 값 비율을 백분율로 환산해서 서로 비슷하게 분할 되었는지 확인하는 코드 작성하기" ] }, { "cell_type": "code", "execution_count": 52, "id": "4e85ce06-8c2d-4f28-ac67-60d9fce3d4c8", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "오차 행렬\n", "[[85281 14]\n", " [ 58 90]]\n", "정확도: 0.9992, 정밀도: 0.8654, 재현율: 0.6081, F1 : 0.7143, AUC:0.9713\n" ] } ], "source": [ "# 로지스틱 회귀를 이용해 신용 카드 사기 여부를 예측하기\n", "from sklearn.linear_model import ##################\n", "\n", "lr_clf = ##################(max_iter=1000) \n", "lr_clf.fit(X_train, y_train)\n", "lr_pred = lr_clf.predict(X_test)\n", "lr_pred_proba = lr_clf.predict_proba(X_test)[:, 1]\n", "\n", "# 정확도, 오차행렬, 정밀도, 재현율, F1 score, AUC 출력하는 get_clf_eval 함수 생성하고 출력하기\n", "from sklearn.metrics import accuracy_score\n", "from sklearn.metrics import confusion_matrix\n", "from sklearn.metrics import precision_score\n", "from sklearn.metrics import f1_score\n", "from sklearn.metrics import recall_score\n", "from sklearn.metrics import #############\n", "\n", "\n", "def get_clf_eval(y_test, pred=None, pred_proba=None): \n", " confusion = confusion_matrix(y_test, pred) \n", " accuracy = accuracy_score(y_test , pred) \n", " precision = precision_score(y_test , pred) \n", " recall = recall_score(y_test , pred)\n", " f1 = f1_score(y_test,pred)\n", " roc_auc = #############(y_test, pred_proba)\n", " print('오차 행렬')\n", " print(confusion)\n", " print('정확도: {0:.4f}, 정밀도: {1:.4f}, 재현율: {2:.4f}, F1 : {3:.4f}, AUC:{4:.4f}'.format(accuracy, precision, recall, f1, roc_auc))\n", "\n", "get_clf_eval(y_test, lr_pred, lr_pred_proba)" ] }, { "cell_type": "code", "execution_count": 23, "id": "16440642-14fc-4e5b-bb0d-eb7adcf49313", "metadata": {}, "outputs": [], "source": [ "# 이 문제의 경우 정밀도와 재현율 중 어떤 것의 수치가 더 중요한지 이유와 함께 적어보기" ] }, { "cell_type": "code", "execution_count": 26, "id": "ff4189c6-edf7-4eed-91f2-152fbb8927dd", "metadata": {}, "outputs": [], "source": [ "# LightGBM을 이용하여 모델 만들기\n", "\n", "# 인자로 사이킷런의 Estimator 객체와 학습/테스트 데이터 세트를 입력받아서 학습/예측/평가 수행. \n", "def get_model_train_eval(#####, ftr_train=None, ftr_test=None, tgt_train=None, tgt_test=None):\n", " #####.fit(ftr_train, tgt_train)\n", " pred = #####.predict(ftr_test)\n", " pred_proba = #####.predict_proba(ftr_test)[:, 1] \n", " get_clf_eval(tgt_test, pred, pred_proba)" ] }, { "cell_type": "code", "execution_count": 33, "id": "a5d307e6-323d-4b59-96a6-3f7b19a1b91a", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "오차 행렬\n", "[[85290 5]\n", " [ 36 112]]\n", "정확도: 0.9995, 정밀도: 0.9573, 재현율: 0.7568,F1 : 0.8453, AUC:0.9790\n" ] } ], "source": [ "# LightGBM으로 모델을 학습한 뒤 별도의 테스트 데이터 세트에서 예측 평가 수행\n", "import warnings \n", "warnings.filterwarnings(\"ignore\") \n", "%matplotlib inline\n", "from lightgbm import ##############\n", "\n", "import lightgbm as lgb\n", "\n", "lgbm_params = {\n", " 'verbosity': -1, # 더 이상 경고 메시지 출력하지 않음\n", " 'force_col_wise': True, # 경고 메시지 제거를 위한 추가 설정\n", " # 다른 파라미터들...\n", "}\n", "\n", "lgbm_clf = ##############(n_estimators=1000, num_leaves=64, n_jobs=-1, boost_from_average=False, **lgbm_params) \n", "get_model_train_eval(lgbm_clf, ftr_train=X_train, ftr_test=X_test, tgt_train=y_train, tgt_test=y_test)" ] }, { "cell_type": "code", "execution_count": 34, "id": "958edde1-35ab-4846-a544-ebcb8d0767a9", "metadata": {}, "outputs": [], "source": [ "# 위의 출력결과를 로지스틱 회귀와 비교하여 정밀도와 재현율이 어떻게 다른지 또는 어떤 모델이 더 적합한지 적어보기" ] }, { "cell_type": "markdown", "id": "4e573b97-7910-4d96-b3a2-41c12e56623c", "metadata": {}, "source": [ "#### 2. 이상치 데이터 제거 후 모델 학습/예측/평가" ] }, { "cell_type": "code", "execution_count": 36, "id": "db4b9b96-065c-49c6-bca8-f3c442bf191a", "metadata": {}, "outputs": [ { "data": { "text/plain": [ "" ] }, "execution_count": 36, "metadata": {}, "output_type": "execute_result" }, { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "# 이상치 데이터를 IQR 을 이용해 제거해보기\n", "# 어떤 피처에서의 이상치 데이터를 검출할 것인지 선택이 필요하기 때문에 heatmap 을 활용해 레이블과 가장 상관성이 높은 피처를 찾아내\n", "# 해당 피처의 이상치를 제거하기 \n", "\n", "import seaborn as sns\n", "plt.figure(figsize=(9, 9)) \n", "corr = card_df.####() \n", "sns.#######(corr, cmap='RdBu')" ] }, { "cell_type": "code", "execution_count": 37, "id": "25b9677e-c914-4713-bcf8-e42ce8812ecd", "metadata": {}, "outputs": [], "source": [ "# 레이블과 상관성이 높은 피처가 무엇인지 작성하기" ] }, { "cell_type": "code", "execution_count": 41, "id": "7ffc986c-3388-4c70-a1ee-fe6b4b75207c", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "이상치 데이터 인덱스: Int64Index([8296, 8615, 9035, 9252], dtype='int64')\n" ] } ], "source": [ "# V14에 대해서만 이상치를 찾아서 제거해보기\n", "\n", "import numpy as np\n", "# get_outlier() 함수는 인자로 DataFrame과 이상치를 검출한 칼럼을 입력받는다. \n", "def get_outlier(df=None, column=None, weight=1.5):\n", " # fraud에 해당하는 column 데이터만 추출, 1/4 분위와 3/4 분위 지점을 np.percentile로 구함. \n", " fraud = df[df['Class']==1][column]\n", " # 함수 내에서 넘파이의 percentile()을 이용해 1/4 분위와 3/4 분위를 구하고, 이에 기반해 IQR을 계산한다.\n", " quantile_25 = np.percentile(fraud.values, 25)\n", " quantile_75 = np.percentile(fraud.values, 75)\n", " # IQR을 구하고, IQR에 1.5를 곱해 최댓값과 최솟값 지점 구함. \n", " iqr = quantile_75 - quantile_25\n", " iqr_weight = iqr * weight\n", " lowest_val = quantile_25 - iqr_weight\n", " highest_val = quantile_75 + iqr_weight\n", " # 최댓값보다 크거나, 최솟값보다 작은 값을 이상치 데이터로 설정하고 DataFrame index 반환. \n", " outlier_index = fraud [(fraud < ########) | (fraud > #########)].index\n", " return outlier_index\n", "\n", "outlier_index = get_outlier(df=card_df, column='V14', weight=1.5)\n", "print('이상치 데이터 인덱스:', ###########)" ] }, { "cell_type": "code", "execution_count": 43, "id": "7b6c4a9d-02f6-4976-bcb0-243bb0d49739", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "### 로지스틱 회귀 예측 성능 ###\n", "오차 행렬\n", "[[85281 14]\n", " [ 48 98]]\n", "정확도: 0.9993, 정밀도: 0.8750, 재현율: 0.6712,F1 : 0.7597, AUC:0.9743\n", "### LightGBM 예측 성능 ###\n", "오차 행렬\n", "[[85290 5]\n", " [ 25 121]]\n", "정확도: 0.9996, 정밀도: 0.9603, 재현율: 0.8288,F1 : 0.8897, AUC:0.9780\n" ] } ], "source": [ "# get_processed_df( )를 로그 변환 후 V14 피처의 이상치 데이터를 삭제하는 로직으로 변경. \n", "def get_preprocessed_df(df=None):\n", " df_copy = df.copy()\n", " amount_n = np.log1p(df_copy['Amount'])\n", " df_copy.######(0, 'Amount_Scaled', amount_n) \n", " df_copy.####(['Time', 'Amount'], axis=1, inplace=True)\n", "\n", " # 이상치 데이터 삭제하는 로직 추가\n", " outlier_index = get_outlier(df=df_copy, column='V14', weight=1.5) \n", " df_copy.drop(outlier_index, axis=0, inplace=True)\n", " return df_copy\n", "\n", "X_train, X_test, y_train, y_test = get_train_test_dataset(card_df)\n", "print('### 로지스틱 회귀 예측 성능 ###')\n", "get_model_train_eval(lr_clf, ftr_train=X_train, ftr_test=X_test, tgt_train=y_train,\n", " tgt_test=y_test) \n", "print('### LightGBM 예측 성능 ###')\n", "get_model_train_eval(lgbm_clf, ftr_train=X_train, ftr_test=X_test, tgt_train=y_train, tgt_test=y_test)" ] }, { "cell_type": "code", "execution_count": 44, "id": "777680de-53bf-4f59-b0f5-2da629170870", "metadata": {}, "outputs": [], "source": [ "# 이상치 데이터를 제거한 뒤의 로지스틱 회귀와 LightGBM 의 예측 성능이 어떻게 변화되었는지 작성해보기기" ] } ], "metadata": { "kernelspec": { "display_name": "Python 3 (ipykernel)", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.9.7" } }, "nbformat": 4, "nbformat_minor": 5 }