{ "cells": [ { "cell_type": "markdown", "metadata": { "_cell_guid": "3689760c-41f8-4a33-9c96-3fd17803950e", "_uuid": "3e0ad409d438c7c68ea6a76700a1e964a357453f" }, "source": [ "https://www.kaggle.com/code/janiobachmann/credit-fraud-dealing-with-imbalanced-datasets\n", "\n" ] }, { "cell_type": "markdown", "metadata": { "_cell_guid": "ae8dd7f3-80a7-4db9-a132-823b0e48c041", "_uuid": "c999e5f1ac81513263d83883008f2844209e9e07" }, "source": [ "## 데이터 센스 수집:\n", "\n", "가장 먼저 해야 할 일은 데이터에 대한 기본 감각 을 수집하는 것입니다. 거래 및 금액을 제외하고 다른 열이 무엇인지 알 수 없음을 기억하십시오(개인정보 보호상의 이유로). 우리가 아는 유일한 것은 알려지지 않은 열이 이미 크기가 조정되었다는 것입니다.\n", "\n", "
\n", " | Time | \n", "V1 | \n", "V2 | \n", "V3 | \n", "V4 | \n", "V5 | \n", "V6 | \n", "V7 | \n", "V8 | \n", "V9 | \n", "... | \n", "V21 | \n", "V22 | \n", "V23 | \n", "V24 | \n", "V25 | \n", "V26 | \n", "V27 | \n", "V28 | \n", "Amount | \n", "Class | \n", "
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | \n", "0.0 | \n", "-1.359807 | \n", "-0.072781 | \n", "2.536347 | \n", "1.378155 | \n", "-0.338321 | \n", "0.462388 | \n", "0.239599 | \n", "0.098698 | \n", "0.363787 | \n", "... | \n", "-0.018307 | \n", "0.277838 | \n", "-0.110474 | \n", "0.066928 | \n", "0.128539 | \n", "-0.189115 | \n", "0.133558 | \n", "-0.021053 | \n", "149.62 | \n", "0 | \n", "
1 | \n", "0.0 | \n", "1.191857 | \n", "0.266151 | \n", "0.166480 | \n", "0.448154 | \n", "0.060018 | \n", "-0.082361 | \n", "-0.078803 | \n", "0.085102 | \n", "-0.255425 | \n", "... | \n", "-0.225775 | \n", "-0.638672 | \n", "0.101288 | \n", "-0.339846 | \n", "0.167170 | \n", "0.125895 | \n", "-0.008983 | \n", "0.014724 | \n", "2.69 | \n", "0 | \n", "
2 | \n", "1.0 | \n", "-1.358354 | \n", "-1.340163 | \n", "1.773209 | \n", "0.379780 | \n", "-0.503198 | \n", "1.800499 | \n", "0.791461 | \n", "0.247676 | \n", "-1.514654 | \n", "... | \n", "0.247998 | \n", "0.771679 | \n", "0.909412 | \n", "-0.689281 | \n", "-0.327642 | \n", "-0.139097 | \n", "-0.055353 | \n", "-0.059752 | \n", "378.66 | \n", "0 | \n", "
3 | \n", "1.0 | \n", "-0.966272 | \n", "-0.185226 | \n", "1.792993 | \n", "-0.863291 | \n", "-0.010309 | \n", "1.247203 | \n", "0.237609 | \n", "0.377436 | \n", "-1.387024 | \n", "... | \n", "-0.108300 | \n", "0.005274 | \n", "-0.190321 | \n", "-1.175575 | \n", "0.647376 | \n", "-0.221929 | \n", "0.062723 | \n", "0.061458 | \n", "123.50 | \n", "0 | \n", "
4 | \n", "2.0 | \n", "-1.158233 | \n", "0.877737 | \n", "1.548718 | \n", "0.403034 | \n", "-0.407193 | \n", "0.095921 | \n", "0.592941 | \n", "-0.270533 | \n", "0.817739 | \n", "... | \n", "-0.009431 | \n", "0.798278 | \n", "-0.137458 | \n", "0.141267 | \n", "-0.206010 | \n", "0.502292 | \n", "0.219422 | \n", "0.215153 | \n", "69.99 | \n", "0 | \n", "
5 rows × 31 columns
\n", "\n", " | Time | \n", "V1 | \n", "V2 | \n", "V3 | \n", "V4 | \n", "V5 | \n", "V6 | \n", "V7 | \n", "V8 | \n", "V9 | \n", "... | \n", "V21 | \n", "V22 | \n", "V23 | \n", "V24 | \n", "V25 | \n", "V26 | \n", "V27 | \n", "V28 | \n", "Amount | \n", "Class | \n", "
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
count | \n", "284807.000000 | \n", "2.848070e+05 | \n", "2.848070e+05 | \n", "2.848070e+05 | \n", "2.848070e+05 | \n", "2.848070e+05 | \n", "2.848070e+05 | \n", "2.848070e+05 | \n", "2.848070e+05 | \n", "2.848070e+05 | \n", "... | \n", "2.848070e+05 | \n", "2.848070e+05 | \n", "2.848070e+05 | \n", "2.848070e+05 | \n", "2.848070e+05 | \n", "2.848070e+05 | \n", "2.848070e+05 | \n", "2.848070e+05 | \n", "284807.000000 | \n", "284807.000000 | \n", "
mean | \n", "94813.859575 | \n", "3.918649e-15 | \n", "5.682686e-16 | \n", "-8.761736e-15 | \n", "2.811118e-15 | \n", "-1.552103e-15 | \n", "2.040130e-15 | \n", "-1.698953e-15 | \n", "-1.893285e-16 | \n", "-3.147640e-15 | \n", "... | \n", "1.473120e-16 | \n", "8.042109e-16 | \n", "5.282512e-16 | \n", "4.456271e-15 | \n", "1.426896e-15 | \n", "1.701640e-15 | \n", "-3.662252e-16 | \n", "-1.217809e-16 | \n", "88.349619 | \n", "0.001727 | \n", "
std | \n", "47488.145955 | \n", "1.958696e+00 | \n", "1.651309e+00 | \n", "1.516255e+00 | \n", "1.415869e+00 | \n", "1.380247e+00 | \n", "1.332271e+00 | \n", "1.237094e+00 | \n", "1.194353e+00 | \n", "1.098632e+00 | \n", "... | \n", "7.345240e-01 | \n", "7.257016e-01 | \n", "6.244603e-01 | \n", "6.056471e-01 | \n", "5.212781e-01 | \n", "4.822270e-01 | \n", "4.036325e-01 | \n", "3.300833e-01 | \n", "250.120109 | \n", "0.041527 | \n", "
min | \n", "0.000000 | \n", "-5.640751e+01 | \n", "-7.271573e+01 | \n", "-4.832559e+01 | \n", "-5.683171e+00 | \n", "-1.137433e+02 | \n", "-2.616051e+01 | \n", "-4.355724e+01 | \n", "-7.321672e+01 | \n", "-1.343407e+01 | \n", "... | \n", "-3.483038e+01 | \n", "-1.093314e+01 | \n", "-4.480774e+01 | \n", "-2.836627e+00 | \n", "-1.029540e+01 | \n", "-2.604551e+00 | \n", "-2.256568e+01 | \n", "-1.543008e+01 | \n", "0.000000 | \n", "0.000000 | \n", "
25% | \n", "54201.500000 | \n", "-9.203734e-01 | \n", "-5.985499e-01 | \n", "-8.903648e-01 | \n", "-8.486401e-01 | \n", "-6.915971e-01 | \n", "-7.682956e-01 | \n", "-5.540759e-01 | \n", "-2.086297e-01 | \n", "-6.430976e-01 | \n", "... | \n", "-2.283949e-01 | \n", "-5.423504e-01 | \n", "-1.618463e-01 | \n", "-3.545861e-01 | \n", "-3.171451e-01 | \n", "-3.269839e-01 | \n", "-7.083953e-02 | \n", "-5.295979e-02 | \n", "5.600000 | \n", "0.000000 | \n", "
50% | \n", "84692.000000 | \n", "1.810880e-02 | \n", "6.548556e-02 | \n", "1.798463e-01 | \n", "-1.984653e-02 | \n", "-5.433583e-02 | \n", "-2.741871e-01 | \n", "4.010308e-02 | \n", "2.235804e-02 | \n", "-5.142873e-02 | \n", "... | \n", "-2.945017e-02 | \n", "6.781943e-03 | \n", "-1.119293e-02 | \n", "4.097606e-02 | \n", "1.659350e-02 | \n", "-5.213911e-02 | \n", "1.342146e-03 | \n", "1.124383e-02 | \n", "22.000000 | \n", "0.000000 | \n", "
75% | \n", "139320.500000 | \n", "1.315642e+00 | \n", "8.037239e-01 | \n", "1.027196e+00 | \n", "7.433413e-01 | \n", "6.119264e-01 | \n", "3.985649e-01 | \n", "5.704361e-01 | \n", "3.273459e-01 | \n", "5.971390e-01 | \n", "... | \n", "1.863772e-01 | \n", "5.285536e-01 | \n", "1.476421e-01 | \n", "4.395266e-01 | \n", "3.507156e-01 | \n", "2.409522e-01 | \n", "9.104512e-02 | \n", "7.827995e-02 | \n", "77.165000 | \n", "0.000000 | \n", "
max | \n", "172792.000000 | \n", "2.454930e+00 | \n", "2.205773e+01 | \n", "9.382558e+00 | \n", "1.687534e+01 | \n", "3.480167e+01 | \n", "7.330163e+01 | \n", "1.205895e+02 | \n", "2.000721e+01 | \n", "1.559499e+01 | \n", "... | \n", "2.720284e+01 | \n", "1.050309e+01 | \n", "2.252841e+01 | \n", "4.584549e+00 | \n", "7.519589e+00 | \n", "3.517346e+00 | \n", "3.161220e+01 | \n", "3.384781e+01 | \n", "25691.160000 | \n", "1.000000 | \n", "
8 rows × 31 columns
\n", "\n", " | scaled_amount | \n", "scaled_time | \n", "V1 | \n", "V2 | \n", "V3 | \n", "V4 | \n", "V5 | \n", "V6 | \n", "V7 | \n", "V8 | \n", "... | \n", "V20 | \n", "V21 | \n", "V22 | \n", "V23 | \n", "V24 | \n", "V25 | \n", "V26 | \n", "V27 | \n", "V28 | \n", "Class | \n", "
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | \n", "1.783274 | \n", "-0.994983 | \n", "-1.359807 | \n", "-0.072781 | \n", "2.536347 | \n", "1.378155 | \n", "-0.338321 | \n", "0.462388 | \n", "0.239599 | \n", "0.098698 | \n", "... | \n", "0.251412 | \n", "-0.018307 | \n", "0.277838 | \n", "-0.110474 | \n", "0.066928 | \n", "0.128539 | \n", "-0.189115 | \n", "0.133558 | \n", "-0.021053 | \n", "0 | \n", "
1 | \n", "-0.269825 | \n", "-0.994983 | \n", "1.191857 | \n", "0.266151 | \n", "0.166480 | \n", "0.448154 | \n", "0.060018 | \n", "-0.082361 | \n", "-0.078803 | \n", "0.085102 | \n", "... | \n", "-0.069083 | \n", "-0.225775 | \n", "-0.638672 | \n", "0.101288 | \n", "-0.339846 | \n", "0.167170 | \n", "0.125895 | \n", "-0.008983 | \n", "0.014724 | \n", "0 | \n", "
2 | \n", "4.983721 | \n", "-0.994972 | \n", "-1.358354 | \n", "-1.340163 | \n", "1.773209 | \n", "0.379780 | \n", "-0.503198 | \n", "1.800499 | \n", "0.791461 | \n", "0.247676 | \n", "... | \n", "0.524980 | \n", "0.247998 | \n", "0.771679 | \n", "0.909412 | \n", "-0.689281 | \n", "-0.327642 | \n", "-0.139097 | \n", "-0.055353 | \n", "-0.059752 | \n", "0 | \n", "
3 | \n", "1.418291 | \n", "-0.994972 | \n", "-0.966272 | \n", "-0.185226 | \n", "1.792993 | \n", "-0.863291 | \n", "-0.010309 | \n", "1.247203 | \n", "0.237609 | \n", "0.377436 | \n", "... | \n", "-0.208038 | \n", "-0.108300 | \n", "0.005274 | \n", "-0.190321 | \n", "-1.175575 | \n", "0.647376 | \n", "-0.221929 | \n", "0.062723 | \n", "0.061458 | \n", "0 | \n", "
4 | \n", "0.670579 | \n", "-0.994960 | \n", "-1.158233 | \n", "0.877737 | \n", "1.548718 | \n", "0.403034 | \n", "-0.407193 | \n", "0.095921 | \n", "0.592941 | \n", "-0.270533 | \n", "... | \n", "0.408542 | \n", "-0.009431 | \n", "0.798278 | \n", "-0.137458 | \n", "0.141267 | \n", "-0.206010 | \n", "0.502292 | \n", "0.219422 | \n", "0.215153 | \n", "0 | \n", "
5 rows × 31 columns
\n", "\n", " | scaled_amount | \n", "scaled_time | \n", "V1 | \n", "V2 | \n", "V3 | \n", "V4 | \n", "V5 | \n", "V6 | \n", "V7 | \n", "V8 | \n", "... | \n", "V20 | \n", "V21 | \n", "V22 | \n", "V23 | \n", "V24 | \n", "V25 | \n", "V26 | \n", "V27 | \n", "V28 | \n", "Class | \n", "
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
44103 | \n", "0.207643 | \n", "-0.503953 | \n", "1.187108 | \n", "0.197527 | \n", "-0.005261 | \n", "0.866955 | \n", "0.096189 | \n", "-0.236065 | \n", "0.148301 | \n", "-0.054294 | \n", "... | \n", "-0.040280 | \n", "0.054420 | \n", "0.100704 | \n", "-0.225825 | \n", "-0.341203 | \n", "0.739539 | \n", "-0.306905 | \n", "0.003305 | \n", "0.009011 | \n", "0 | \n", "
234633 | \n", "-0.285195 | \n", "0.744381 | \n", "1.261324 | \n", "2.726800 | \n", "-5.435019 | \n", "5.342759 | \n", "1.447043 | \n", "-1.442584 | \n", "-0.898702 | \n", "0.123062 | \n", "... | \n", "0.313332 | \n", "0.209086 | \n", "-0.425938 | \n", "-0.154440 | \n", "-0.018820 | \n", "0.632234 | \n", "0.192922 | \n", "0.468181 | \n", "0.280486 | \n", "1 | \n", "
269782 | \n", "-0.199259 | \n", "0.929064 | \n", "0.030575 | \n", "0.732028 | \n", "0.089890 | \n", "-0.802783 | \n", "0.598855 | \n", "-0.538619 | \n", "0.858617 | \n", "0.018576 | \n", "... | \n", "-0.060654 | \n", "-0.248125 | \n", "-0.619363 | \n", "0.018734 | \n", "-0.524455 | \n", "-0.484292 | \n", "0.153181 | \n", "0.235530 | \n", "0.080722 | \n", "0 | \n", "
30314 | \n", "-0.201076 | \n", "-0.573620 | \n", "-2.044489 | \n", "3.368306 | \n", "-3.937111 | \n", "5.623120 | \n", "-3.079232 | \n", "-1.253474 | \n", "-5.778880 | \n", "1.707428 | \n", "... | \n", "1.112028 | \n", "1.483594 | \n", "0.834311 | \n", "-0.148486 | \n", "0.001669 | \n", "-0.038996 | \n", "0.389526 | \n", "1.300236 | \n", "0.549940 | \n", "1 | \n", "
93424 | \n", "-0.293440 | \n", "-0.238255 | \n", "-1.348042 | \n", "2.522821 | \n", "-0.782432 | \n", "4.083047 | \n", "-0.662280 | \n", "-0.598776 | \n", "-1.943552 | \n", "-0.329579 | \n", "... | \n", "0.348896 | \n", "1.079871 | \n", "-0.352026 | \n", "-0.218358 | \n", "0.125866 | \n", "-0.074180 | \n", "0.179116 | \n", "0.612580 | \n", "0.234206 | \n", "1 | \n", "
... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "
183106 | \n", "-0.307413 | \n", "0.481279 | \n", "0.224414 | \n", "2.994499 | \n", "-3.432458 | \n", "3.986519 | \n", "3.760233 | \n", "0.165640 | \n", "1.099378 | \n", "-0.654557 | \n", "... | \n", "-0.200846 | \n", "0.491337 | \n", "-0.984223 | \n", "-0.421979 | \n", "-1.048058 | \n", "0.726412 | \n", "0.268625 | \n", "0.283689 | \n", "0.419102 | \n", "1 | \n", "
101509 | \n", "4.164047 | \n", "-0.197782 | \n", "-1.739334 | \n", "-1.304655 | \n", "0.314103 | \n", "0.053740 | \n", "-0.058696 | \n", "0.071260 | \n", "0.694862 | \n", "-0.313270 | \n", "... | \n", "-1.463994 | \n", "-0.665172 | \n", "-0.632078 | \n", "-0.421176 | \n", "-0.400774 | \n", "-0.001640 | \n", "-0.495162 | \n", "0.031633 | \n", "0.066280 | \n", "1 | \n", "
199905 | \n", "-0.130371 | \n", "0.569779 | \n", "1.981899 | \n", "-0.165623 | \n", "-1.468646 | \n", "0.795698 | \n", "0.125458 | \n", "-0.326336 | \n", "-0.138316 | \n", "0.016419 | \n", "... | \n", "-0.274902 | \n", "-0.433873 | \n", "-0.910155 | \n", "0.254615 | \n", "0.463135 | \n", "-0.011024 | \n", "-0.521054 | \n", "0.021107 | \n", "-0.019086 | \n", "0 | \n", "
83297 | \n", "4.152868 | \n", "-0.292708 | \n", "-8.257111 | \n", "-4.814461 | \n", "-5.365307 | \n", "1.204230 | \n", "-3.347420 | \n", "-1.331601 | \n", "-1.967893 | \n", "1.295438 | \n", "... | \n", "-1.233987 | \n", "0.436390 | \n", "-0.077553 | \n", "-3.091624 | \n", "-0.390201 | \n", "-0.288689 | \n", "-0.340004 | \n", "0.039819 | \n", "-1.007900 | \n", "1 | \n", "
131272 | \n", "-0.304618 | \n", "-0.060527 | \n", "-0.114361 | \n", "1.036129 | \n", "1.984405 | \n", "3.128243 | \n", "-0.740344 | \n", "1.548619 | \n", "-1.701284 | \n", "-2.203842 | \n", "... | \n", "0.732852 | \n", "-1.032935 | \n", "1.196428 | \n", "-0.112857 | \n", "0.254719 | \n", "0.696668 | \n", "0.482370 | \n", "0.129969 | \n", "0.223924 | \n", "1 | \n", "
984 rows × 31 columns
\n", "\n", " | Technique | \n", "Score | \n", "
---|---|---|
0 | \n", "Random UnderSampling | \n", "0.984211 | \n", "
1 | \n", "Oversampling (SMOTE) | \n", "0.987922 | \n", "