{
"cells": [
{
"cell_type": "code",
"execution_count": 4,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"파일 다운로드 완료\n",
"====================\n",
"\n",
"데이터셋: 사용자이탈예측\n",
"파일경로: data\\class.csv\n",
"\n",
"====================\n",
"파일 다운로드 완료\n",
"====================\n",
"\n",
"데이터셋: 사용자이탈예측\n",
"파일경로: data\\event.csv\n",
"\n",
"====================\n",
"파일 다운로드 완료\n",
"====================\n",
"\n",
"데이터셋: 사용자이탈예측\n",
"파일경로: data\\logs.csv\n",
"\n",
"====================\n",
"파일 다운로드 완료\n",
"====================\n",
"\n",
"데이터셋: 사용자이탈예측\n",
"파일경로: data\\user_info.csv\n",
"\n",
"====================\n"
]
}
],
"source": [
"import numpy as np\n",
"import pandas as pd\n",
"import matplotlib.pyplot as plt\n",
"import seaborn as sns\n",
"\n",
"!pip install --upgrade mySUNI -q\n",
"from mySUNI import cds\n",
"cds.download_data('사용자이탈예측')"
]
},
{
"cell_type": "code",
"execution_count": 5,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"
\n",
"\n",
"
\n",
" \n",
" \n",
" | \n",
" log | \n",
" userid | \n",
" date | \n",
"
\n",
" \n",
" \n",
" \n",
" 0 | \n",
" L00000049012330 | \n",
" AS009373 | \n",
" 2018-04-01 | \n",
"
\n",
" \n",
" 1 | \n",
" L00000049012331 | \n",
" AS015315 | \n",
" 2018-04-01 | \n",
"
\n",
" \n",
" 2 | \n",
" L00000049012332 | \n",
" AS040841 | \n",
" 2018-04-01 | \n",
"
\n",
" \n",
" 3 | \n",
" L00000049012333 | \n",
" AS046594 | \n",
" 2018-04-01 | \n",
"
\n",
" \n",
" 4 | \n",
" L00000049012334 | \n",
" AS073285 | \n",
" 2018-04-01 | \n",
"
\n",
" \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
"
\n",
" \n",
" 197423 | \n",
" L00000049209753 | \n",
" TS977703 | \n",
" 2019-03-31 | \n",
"
\n",
" \n",
" 197424 | \n",
" L00000049209754 | \n",
" TS979550 | \n",
" 2019-03-31 | \n",
"
\n",
" \n",
" 197425 | \n",
" L00000049209755 | \n",
" TS995299 | \n",
" 2019-03-31 | \n",
"
\n",
" \n",
" 197426 | \n",
" L00000049209756 | \n",
" TS995853 | \n",
" 2019-03-31 | \n",
"
\n",
" \n",
" 197427 | \n",
" L00000049209757 | \n",
" TS999079 | \n",
" 2019-03-31 | \n",
"
\n",
" \n",
"
\n",
"
197428 rows × 3 columns
\n",
"
"
],
"text/plain": [
" log userid date\n",
"0 L00000049012330 AS009373 2018-04-01\n",
"1 L00000049012331 AS015315 2018-04-01\n",
"2 L00000049012332 AS040841 2018-04-01\n",
"3 L00000049012333 AS046594 2018-04-01\n",
"4 L00000049012334 AS073285 2018-04-01\n",
"... ... ... ...\n",
"197423 L00000049209753 TS977703 2019-03-31\n",
"197424 L00000049209754 TS979550 2019-03-31\n",
"197425 L00000049209755 TS995299 2019-03-31\n",
"197426 L00000049209756 TS995853 2019-03-31\n",
"197427 L00000049209757 TS999079 2019-03-31\n",
"\n",
"[197428 rows x 3 columns]"
]
},
"execution_count": 5,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# 코드를 입력해 주세요\n",
"# logs.csv 파일을 읽으세요.\n",
"df_logs = pd.read_csv('data/logs.csv')\n",
"df_logs"
]
},
{
"cell_type": "code",
"execution_count": 6,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"\n",
"\n",
"
\n",
" \n",
" \n",
" | \n",
" userid | \n",
" class | \n",
" gender | \n",
" start_date | \n",
" end_date | \n",
" event_type | \n",
" is_deleted | \n",
"
\n",
" \n",
" \n",
" \n",
" 0 | \n",
" OA832399 | \n",
" C01 | \n",
" F | \n",
" 2015-05-01 0:00 | \n",
" NaN | \n",
" CA1 | \n",
" 0 | \n",
"
\n",
" \n",
" 1 | \n",
" PL270116 | \n",
" C01 | \n",
" M | \n",
" 2015-05-01 0:00 | \n",
" NaN | \n",
" CA1 | \n",
" 0 | \n",
"
\n",
" \n",
" 2 | \n",
" OA974876 | \n",
" C01 | \n",
" M | \n",
" 2015-05-01 0:00 | \n",
" NaN | \n",
" CA1 | \n",
" 0 | \n",
"
\n",
" \n",
" 3 | \n",
" HD024127 | \n",
" C01 | \n",
" F | \n",
" 2015-05-01 0:00 | \n",
" NaN | \n",
" CA1 | \n",
" -1 | \n",
"
\n",
" \n",
" 4 | \n",
" HD661448 | \n",
" C03 | \n",
" F | \n",
" 2015-05-01 0:00 | \n",
" NaN | \n",
" CA1 | \n",
" -1 | \n",
"
\n",
" \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
"
\n",
" \n",
" 4187 | \n",
" HD676663 | \n",
" C01 | \n",
" M | \n",
" 2019-03-14 0:00 | \n",
" NaN | \n",
" CA1 | \n",
" 0 | \n",
"
\n",
" \n",
" 4188 | \n",
" HD246549 | \n",
" C01 | \n",
" F | \n",
" 2019-03-14 0:00 | \n",
" NaN | \n",
" CA1 | \n",
" 0 | \n",
"
\n",
" \n",
" 4189 | \n",
" GD037007 | \n",
" C03 | \n",
" M | \n",
" 2019-03-14 0:00 | \n",
" NaN | \n",
" CA1 | \n",
" 0 | \n",
"
\n",
" \n",
" 4190 | \n",
" OA953150 | \n",
" C01 | \n",
" M | \n",
" 2019-03-14 0:00 | \n",
" NaN | \n",
" CA1 | \n",
" -1 | \n",
"
\n",
" \n",
" 4191 | \n",
" IK692635 | \n",
" C02 | \n",
" F | \n",
" 2019-03-15 0:00 | \n",
" NaN | \n",
" CA1 | \n",
" 0 | \n",
"
\n",
" \n",
"
\n",
"
4192 rows × 7 columns
\n",
"
"
],
"text/plain": [
" userid class gender start_date end_date event_type is_deleted\n",
"0 OA832399 C01 F 2015-05-01 0:00 NaN CA1 0\n",
"1 PL270116 C01 M 2015-05-01 0:00 NaN CA1 0\n",
"2 OA974876 C01 M 2015-05-01 0:00 NaN CA1 0\n",
"3 HD024127 C01 F 2015-05-01 0:00 NaN CA1 -1\n",
"4 HD661448 C03 F 2015-05-01 0:00 NaN CA1 -1\n",
"... ... ... ... ... ... ... ...\n",
"4187 HD676663 C01 M 2019-03-14 0:00 NaN CA1 0\n",
"4188 HD246549 C01 F 2019-03-14 0:00 NaN CA1 0\n",
"4189 GD037007 C03 M 2019-03-14 0:00 NaN CA1 0\n",
"4190 OA953150 C01 M 2019-03-14 0:00 NaN CA1 -1\n",
"4191 IK692635 C02 F 2019-03-15 0:00 NaN CA1 0\n",
"\n",
"[4192 rows x 7 columns]"
]
},
"execution_count": 6,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# 코드를 입력해 주세요\n",
"# user_info.csv 파일을 읽으세요.\n",
"df_user_info = pd.read_csv('data/user_info.csv')\n",
"df_user_info"
]
},
{
"cell_type": "code",
"execution_count": 7,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"\n",
"\n",
"
\n",
" \n",
" \n",
" | \n",
" class | \n",
" class_name | \n",
" price | \n",
"
\n",
" \n",
" \n",
" \n",
" 0 | \n",
" C01 | \n",
" all | \n",
" 10000 | \n",
"
\n",
" \n",
" 1 | \n",
" C02 | \n",
" day | \n",
" 7000 | \n",
"
\n",
" \n",
" 2 | \n",
" C03 | \n",
" night | \n",
" 5000 | \n",
"
\n",
" \n",
"
\n",
"
"
],
"text/plain": [
" class class_name price\n",
"0 C01 all 10000\n",
"1 C02 day 7000\n",
"2 C03 night 5000"
]
},
"execution_count": 7,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# 코드를 입력해 주세요\n",
"# class.csv 파일을 읽으세요.\n",
"df_class = pd.read_csv('data/class.csv')\n",
"df_class"
]
},
{
"cell_type": "code",
"execution_count": 8,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"\n",
"\n",
"
\n",
" \n",
" \n",
" | \n",
" event_type\\tevent_name | \n",
"
\n",
" \n",
" \n",
" \n",
" 0 | \n",
" CA1\\tNone | \n",
"
\n",
" \n",
" 1 | \n",
" CA2\\tSale | \n",
"
\n",
" \n",
" 2 | \n",
" CA3\\tFree | \n",
"
\n",
" \n",
"
\n",
"
"
],
"text/plain": [
" event_type\\tevent_name\n",
"0 CA1\\tNone\n",
"1 CA2\\tSale\n",
"2 CA3\\tFree"
]
},
"execution_count": 8,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# 코드를 입력해 주세요\n",
"# event.csv 파일을 읽으세요.\n",
"df_event = pd.read_csv('data/event.csv')\n",
"df_event"
]
},
{
"cell_type": "code",
"execution_count": 9,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"\n",
"\n",
"
\n",
" \n",
" \n",
" | \n",
" event_type | \n",
" event_name | \n",
"
\n",
" \n",
" \n",
" \n",
" 0 | \n",
" CA1 | \n",
" None | \n",
"
\n",
" \n",
" 1 | \n",
" CA2 | \n",
" Sale | \n",
"
\n",
" \n",
" 2 | \n",
" CA3 | \n",
" Free | \n",
"
\n",
" \n",
"
\n",
"
"
],
"text/plain": [
" event_type event_name\n",
"0 CA1 None\n",
"1 CA2 Sale\n",
"2 CA3 Free"
]
},
"execution_count": 9,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# 코드를 입력해 주세요\n",
"# event.csv 파일을 다시 읽으세요.\n",
"# 구분자는 \\t 입니다.\n",
"df_event = pd.read_csv('data/event.csv', sep='\\t')\n",
"df_event"
]
},
{
"cell_type": "code",
"execution_count": 10,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"\n",
"\n",
"
\n",
" \n",
" \n",
" | \n",
" userid | \n",
" class | \n",
" gender | \n",
" start_date | \n",
" end_date | \n",
" event_type | \n",
" is_deleted | \n",
" class_name | \n",
" price | \n",
"
\n",
" \n",
" \n",
" \n",
" 0 | \n",
" OA832399 | \n",
" C01 | \n",
" F | \n",
" 2015-05-01 0:00 | \n",
" NaN | \n",
" CA1 | \n",
" 0 | \n",
" all | \n",
" 10000 | \n",
"
\n",
" \n",
" 1 | \n",
" PL270116 | \n",
" C01 | \n",
" M | \n",
" 2015-05-01 0:00 | \n",
" NaN | \n",
" CA1 | \n",
" 0 | \n",
" all | \n",
" 10000 | \n",
"
\n",
" \n",
" 2 | \n",
" OA974876 | \n",
" C01 | \n",
" M | \n",
" 2015-05-01 0:00 | \n",
" NaN | \n",
" CA1 | \n",
" 0 | \n",
" all | \n",
" 10000 | \n",
"
\n",
" \n",
" 3 | \n",
" HD024127 | \n",
" C01 | \n",
" F | \n",
" 2015-05-01 0:00 | \n",
" NaN | \n",
" CA1 | \n",
" -1 | \n",
" all | \n",
" 10000 | \n",
"
\n",
" \n",
" 4 | \n",
" IK271057 | \n",
" C01 | \n",
" M | \n",
" 2015-05-01 0:00 | \n",
" NaN | \n",
" CA1 | \n",
" 0 | \n",
" all | \n",
" 10000 | \n",
"
\n",
" \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
"
\n",
" \n",
" 4187 | \n",
" IK947853 | \n",
" C02 | \n",
" F | \n",
" 2019-03-09 0:00 | \n",
" NaN | \n",
" CA1 | \n",
" 0 | \n",
" day | \n",
" 7000 | \n",
"
\n",
" \n",
" 4188 | \n",
" OA301090 | \n",
" C02 | \n",
" F | \n",
" 2019-03-12 0:00 | \n",
" NaN | \n",
" CA1 | \n",
" 0 | \n",
" day | \n",
" 7000 | \n",
"
\n",
" \n",
" 4189 | \n",
" OA643695 | \n",
" C02 | \n",
" F | \n",
" 2019-03-12 0:00 | \n",
" NaN | \n",
" CA1 | \n",
" 0 | \n",
" day | \n",
" 7000 | \n",
"
\n",
" \n",
" 4190 | \n",
" HD522396 | \n",
" C02 | \n",
" F | \n",
" 2019-03-13 0:00 | \n",
" NaN | \n",
" CA1 | \n",
" 0 | \n",
" day | \n",
" 7000 | \n",
"
\n",
" \n",
" 4191 | \n",
" IK692635 | \n",
" C02 | \n",
" F | \n",
" 2019-03-15 0:00 | \n",
" NaN | \n",
" CA1 | \n",
" 0 | \n",
" day | \n",
" 7000 | \n",
"
\n",
" \n",
"
\n",
"
4192 rows × 9 columns
\n",
"
"
],
"text/plain": [
" userid class gender start_date end_date event_type is_deleted \\\n",
"0 OA832399 C01 F 2015-05-01 0:00 NaN CA1 0 \n",
"1 PL270116 C01 M 2015-05-01 0:00 NaN CA1 0 \n",
"2 OA974876 C01 M 2015-05-01 0:00 NaN CA1 0 \n",
"3 HD024127 C01 F 2015-05-01 0:00 NaN CA1 -1 \n",
"4 IK271057 C01 M 2015-05-01 0:00 NaN CA1 0 \n",
"... ... ... ... ... ... ... ... \n",
"4187 IK947853 C02 F 2019-03-09 0:00 NaN CA1 0 \n",
"4188 OA301090 C02 F 2019-03-12 0:00 NaN CA1 0 \n",
"4189 OA643695 C02 F 2019-03-12 0:00 NaN CA1 0 \n",
"4190 HD522396 C02 F 2019-03-13 0:00 NaN CA1 0 \n",
"4191 IK692635 C02 F 2019-03-15 0:00 NaN CA1 0 \n",
"\n",
" class_name price \n",
"0 all 10000 \n",
"1 all 10000 \n",
"2 all 10000 \n",
"3 all 10000 \n",
"4 all 10000 \n",
"... ... ... \n",
"4187 day 7000 \n",
"4188 day 7000 \n",
"4189 day 7000 \n",
"4190 day 7000 \n",
"4191 day 7000 \n",
"\n",
"[4192 rows x 9 columns]"
]
},
"execution_count": 10,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# 코드를 입력해 주세요\n",
"# 파편화된 데이터를 병합 합니다.\n",
"# 1. df_user_info와 df_class을 class를 기준으로 병합하세요. \n",
"user = pd.merge(df_user_info, df_class, on='class')\n",
"user"
]
},
{
"cell_type": "code",
"execution_count": 11,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"\n",
"\n",
"
\n",
" \n",
" \n",
" | \n",
" userid | \n",
" class | \n",
" gender | \n",
" start_date | \n",
" end_date | \n",
" event_type | \n",
" is_deleted | \n",
" class_name | \n",
" price | \n",
" event_name | \n",
"
\n",
" \n",
" \n",
" \n",
" 0 | \n",
" OA832399 | \n",
" C01 | \n",
" F | \n",
" 2015-05-01 0:00 | \n",
" NaN | \n",
" CA1 | \n",
" 0 | \n",
" all | \n",
" 10000 | \n",
" None | \n",
"
\n",
" \n",
" 1 | \n",
" PL270116 | \n",
" C01 | \n",
" M | \n",
" 2015-05-01 0:00 | \n",
" NaN | \n",
" CA1 | \n",
" 0 | \n",
" all | \n",
" 10000 | \n",
" None | \n",
"
\n",
" \n",
" 2 | \n",
" OA974876 | \n",
" C01 | \n",
" M | \n",
" 2015-05-01 0:00 | \n",
" NaN | \n",
" CA1 | \n",
" 0 | \n",
" all | \n",
" 10000 | \n",
" None | \n",
"
\n",
" \n",
" 3 | \n",
" HD024127 | \n",
" C01 | \n",
" F | \n",
" 2015-05-01 0:00 | \n",
" NaN | \n",
" CA1 | \n",
" -1 | \n",
" all | \n",
" 10000 | \n",
" None | \n",
"
\n",
" \n",
" 4 | \n",
" IK271057 | \n",
" C01 | \n",
" M | \n",
" 2015-05-01 0:00 | \n",
" NaN | \n",
" CA1 | \n",
" 0 | \n",
" all | \n",
" 10000 | \n",
" None | \n",
"
\n",
" \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
"
\n",
" \n",
" 4187 | \n",
" IK562610 | \n",
" C02 | \n",
" F | \n",
" 2018-12-13 0:00 | \n",
" 2019-02-28 0:00 | \n",
" CA3 | \n",
" 1 | \n",
" day | \n",
" 7000 | \n",
" Free | \n",
"
\n",
" \n",
" 4188 | \n",
" HI599354 | \n",
" C02 | \n",
" M | \n",
" 2018-12-13 0:00 | \n",
" NaN | \n",
" CA3 | \n",
" 0 | \n",
" day | \n",
" 7000 | \n",
" Free | \n",
"
\n",
" \n",
" 4189 | \n",
" GD796859 | \n",
" C02 | \n",
" F | \n",
" 2018-12-14 0:00 | \n",
" NaN | \n",
" CA3 | \n",
" 0 | \n",
" day | \n",
" 7000 | \n",
" Free | \n",
"
\n",
" \n",
" 4190 | \n",
" GD082270 | \n",
" C02 | \n",
" F | \n",
" 2018-12-14 0:00 | \n",
" 2019-02-28 0:00 | \n",
" CA3 | \n",
" 1 | \n",
" day | \n",
" 7000 | \n",
" Free | \n",
"
\n",
" \n",
" 4191 | \n",
" OA426023 | \n",
" C02 | \n",
" F | \n",
" 2018-12-14 0:00 | \n",
" NaN | \n",
" CA3 | \n",
" 0 | \n",
" day | \n",
" 7000 | \n",
" Free | \n",
"
\n",
" \n",
"
\n",
"
4192 rows × 10 columns
\n",
"
"
],
"text/plain": [
" userid class gender start_date end_date event_type \\\n",
"0 OA832399 C01 F 2015-05-01 0:00 NaN CA1 \n",
"1 PL270116 C01 M 2015-05-01 0:00 NaN CA1 \n",
"2 OA974876 C01 M 2015-05-01 0:00 NaN CA1 \n",
"3 HD024127 C01 F 2015-05-01 0:00 NaN CA1 \n",
"4 IK271057 C01 M 2015-05-01 0:00 NaN CA1 \n",
"... ... ... ... ... ... ... \n",
"4187 IK562610 C02 F 2018-12-13 0:00 2019-02-28 0:00 CA3 \n",
"4188 HI599354 C02 M 2018-12-13 0:00 NaN CA3 \n",
"4189 GD796859 C02 F 2018-12-14 0:00 NaN CA3 \n",
"4190 GD082270 C02 F 2018-12-14 0:00 2019-02-28 0:00 CA3 \n",
"4191 OA426023 C02 F 2018-12-14 0:00 NaN CA3 \n",
"\n",
" is_deleted class_name price event_name \n",
"0 0 all 10000 None \n",
"1 0 all 10000 None \n",
"2 0 all 10000 None \n",
"3 -1 all 10000 None \n",
"4 0 all 10000 None \n",
"... ... ... ... ... \n",
"4187 1 day 7000 Free \n",
"4188 0 day 7000 Free \n",
"4189 0 day 7000 Free \n",
"4190 1 day 7000 Free \n",
"4191 0 day 7000 Free \n",
"\n",
"[4192 rows x 10 columns]"
]
},
"execution_count": 11,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# 코드를 입력해 주세요\n",
"# 2. user와 df_event를 event_type을 기준으로 병합하세요.\n",
"user = pd.merge(user, df_event, on='event_type')\n",
"user"
]
},
{
"cell_type": "code",
"execution_count": 12,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"\n",
"Int64Index: 4192 entries, 0 to 4191\n",
"Data columns (total 10 columns):\n",
" # Column Non-Null Count Dtype \n",
"--- ------ -------------- ----- \n",
" 0 userid 4192 non-null object\n",
" 1 class 4192 non-null object\n",
" 2 gender 4192 non-null object\n",
" 3 start_date 4192 non-null object\n",
" 4 end_date 1350 non-null object\n",
" 5 event_type 4192 non-null object\n",
" 6 is_deleted 4192 non-null int64 \n",
" 7 class_name 4192 non-null object\n",
" 8 price 4192 non-null int64 \n",
" 9 event_name 4192 non-null object\n",
"dtypes: int64(2), object(8)\n",
"memory usage: 360.2+ KB\n"
]
}
],
"source": [
"# 코드를 입력해 주세요\n",
"# user 데이터 프레임의 정보를 조회하세요\n",
"user.info()"
]
},
{
"cell_type": "code",
"execution_count": 13,
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"userid 0\n",
"class 0\n",
"gender 0\n",
"start_date 0\n",
"end_date 2842\n",
"event_type 0\n",
"is_deleted 0\n",
"class_name 0\n",
"price 0\n",
"event_name 0\n",
"dtype: int64"
]
},
"execution_count": 13,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# 코드를 입력해 주세요\n",
"# 결측치를 조회하세요.\n",
"user.isna().sum()"
]
},
{
"cell_type": "code",
"execution_count": 14,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"\n",
"\n",
"
\n",
" \n",
" \n",
" | \n",
" userid | \n",
" class | \n",
" gender | \n",
" start_date | \n",
" end_date | \n",
" event_type | \n",
" is_deleted | \n",
" class_name | \n",
" price | \n",
" event_name | \n",
"
\n",
" \n",
" \n",
" \n",
" 0 | \n",
" OA832399 | \n",
" C01 | \n",
" F | \n",
" 2015-05-01 0:00 | \n",
" NaN | \n",
" CA1 | \n",
" 0 | \n",
" all | \n",
" 10000 | \n",
" None | \n",
"
\n",
" \n",
" 1 | \n",
" PL270116 | \n",
" C01 | \n",
" M | \n",
" 2015-05-01 0:00 | \n",
" NaN | \n",
" CA1 | \n",
" 0 | \n",
" all | \n",
" 10000 | \n",
" None | \n",
"
\n",
" \n",
" 2 | \n",
" OA974876 | \n",
" C01 | \n",
" M | \n",
" 2015-05-01 0:00 | \n",
" NaN | \n",
" CA1 | \n",
" 0 | \n",
" all | \n",
" 10000 | \n",
" None | \n",
"
\n",
" \n",
" 3 | \n",
" HD024127 | \n",
" C01 | \n",
" F | \n",
" 2015-05-01 0:00 | \n",
" NaN | \n",
" CA1 | \n",
" -1 | \n",
" all | \n",
" 10000 | \n",
" None | \n",
"
\n",
" \n",
" 4 | \n",
" IK271057 | \n",
" C01 | \n",
" M | \n",
" 2015-05-01 0:00 | \n",
" NaN | \n",
" CA1 | \n",
" 0 | \n",
" all | \n",
" 10000 | \n",
" None | \n",
"
\n",
" \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
"
\n",
" \n",
" 4184 | \n",
" AS310166 | \n",
" C02 | \n",
" F | \n",
" 2018-12-12 0:00 | \n",
" NaN | \n",
" CA3 | \n",
" 0 | \n",
" day | \n",
" 7000 | \n",
" Free | \n",
"
\n",
" \n",
" 4186 | \n",
" HD071461 | \n",
" C02 | \n",
" F | \n",
" 2018-12-13 0:00 | \n",
" NaN | \n",
" CA3 | \n",
" 0 | \n",
" day | \n",
" 7000 | \n",
" Free | \n",
"
\n",
" \n",
" 4188 | \n",
" HI599354 | \n",
" C02 | \n",
" M | \n",
" 2018-12-13 0:00 | \n",
" NaN | \n",
" CA3 | \n",
" 0 | \n",
" day | \n",
" 7000 | \n",
" Free | \n",
"
\n",
" \n",
" 4189 | \n",
" GD796859 | \n",
" C02 | \n",
" F | \n",
" 2018-12-14 0:00 | \n",
" NaN | \n",
" CA3 | \n",
" 0 | \n",
" day | \n",
" 7000 | \n",
" Free | \n",
"
\n",
" \n",
" 4191 | \n",
" OA426023 | \n",
" C02 | \n",
" F | \n",
" 2018-12-14 0:00 | \n",
" NaN | \n",
" CA3 | \n",
" 0 | \n",
" day | \n",
" 7000 | \n",
" Free | \n",
"
\n",
" \n",
"
\n",
"
2842 rows × 10 columns
\n",
"
"
],
"text/plain": [
" userid class gender start_date end_date event_type is_deleted \\\n",
"0 OA832399 C01 F 2015-05-01 0:00 NaN CA1 0 \n",
"1 PL270116 C01 M 2015-05-01 0:00 NaN CA1 0 \n",
"2 OA974876 C01 M 2015-05-01 0:00 NaN CA1 0 \n",
"3 HD024127 C01 F 2015-05-01 0:00 NaN CA1 -1 \n",
"4 IK271057 C01 M 2015-05-01 0:00 NaN CA1 0 \n",
"... ... ... ... ... ... ... ... \n",
"4184 AS310166 C02 F 2018-12-12 0:00 NaN CA3 0 \n",
"4186 HD071461 C02 F 2018-12-13 0:00 NaN CA3 0 \n",
"4188 HI599354 C02 M 2018-12-13 0:00 NaN CA3 0 \n",
"4189 GD796859 C02 F 2018-12-14 0:00 NaN CA3 0 \n",
"4191 OA426023 C02 F 2018-12-14 0:00 NaN CA3 0 \n",
"\n",
" class_name price event_name \n",
"0 all 10000 None \n",
"1 all 10000 None \n",
"2 all 10000 None \n",
"3 all 10000 None \n",
"4 all 10000 None \n",
"... ... ... ... \n",
"4184 day 7000 Free \n",
"4186 day 7000 Free \n",
"4188 day 7000 Free \n",
"4189 day 7000 Free \n",
"4191 day 7000 Free \n",
"\n",
"[2842 rows x 10 columns]"
]
},
"execution_count": 14,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# 코드를 입력해 주세요\n",
"# end_date컬럼이 결측치인 데이터만 선택하여 출력하세요\n",
"user.loc[user['end_date'].isna(), :]"
]
},
{
"cell_type": "code",
"execution_count": 15,
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
" 0 2131\n",
"-1 711\n",
"Name: is_deleted, dtype: int64"
]
},
"execution_count": 15,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# 코드를 입력해 주세요\n",
"# end_date컬럼이 결측치인 데이터의 is_deleted 컬럼의 값별 개수를 카운트 하세요.\n",
"user.loc[user['end_date'].isna(), 'is_deleted'].value_counts()"
]
},
{
"cell_type": "code",
"execution_count": 16,
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
" 1 1013\n",
"-1 337\n",
"Name: is_deleted, dtype: int64"
]
},
"execution_count": 16,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# 코드를 입력해 주세요\n",
"# end_date컬럼이 결측치가 아닌 데이터의 is_deleted 컬럼의 값별 개수를 카운트 하세요.\n",
"user.loc[~user['end_date'].isna(), 'is_deleted'].value_counts()"
]
},
{
"cell_type": "code",
"execution_count": 17,
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"class_name\n",
"all 2045\n",
"day 1019\n",
"night 1128\n",
"Name: userid, dtype: int64"
]
},
"execution_count": 17,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# 코드를 입력해 주세요\n",
"# class_name을 기준으로 그룹을 생성하고 userid의 개수를 조회하세요.\n",
"user.groupby('class_name')['userid'].count()"
]
},
{
"cell_type": "code",
"execution_count": 18,
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"event_name\n",
"Free 492\n",
"None 3050\n",
"Sale 650\n",
"Name: userid, dtype: int64"
]
},
"execution_count": 18,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# 코드를 입력해 주세요\n",
"# event_name을 기준으로 그룹을 생성하고 userid의 개수를 조회하세요.\n",
"user.groupby('event_name')['userid'].count()"
]
},
{
"cell_type": "code",
"execution_count": 19,
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"gender\n",
"F 1983\n",
"M 2209\n",
"Name: userid, dtype: int64"
]
},
"execution_count": 19,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# 코드를 입력해 주세요\n",
"# gender를 기준으로 그룹을 생성하고 userid의 개수를 조회하세요.\n",
"user.groupby('gender')['userid'].count()"
]
},
{
"cell_type": "code",
"execution_count": 20,
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"is_deleted\n",
"-1 1048\n",
" 0 2131\n",
" 1 1013\n",
"Name: userid, dtype: int64"
]
},
"execution_count": 20,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# 코드를 입력해 주세요\n",
"# is_deleted를 기준으로 그룹을 생성하고 userid의 개수를 조회하세요.\n",
"user.groupby('is_deleted')['userid'].count()"
]
},
{
"cell_type": "code",
"execution_count": 21,
"metadata": {},
"outputs": [],
"source": [
"# 코드를 입력해 주세요\n",
"# start_date 컬럼과 end_date 컬럼을 datetime 형태로 변환하세요\n",
"user['start_date'] = pd.to_datetime(user['start_date'])\n",
"user['end_date'] = pd.to_datetime(user['end_date'])"
]
},
{
"cell_type": "code",
"execution_count": 22,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"\n",
"Int64Index: 4192 entries, 0 to 4191\n",
"Data columns (total 10 columns):\n",
" # Column Non-Null Count Dtype \n",
"--- ------ -------------- ----- \n",
" 0 userid 4192 non-null object \n",
" 1 class 4192 non-null object \n",
" 2 gender 4192 non-null object \n",
" 3 start_date 4192 non-null datetime64[ns]\n",
" 4 end_date 1350 non-null datetime64[ns]\n",
" 5 event_type 4192 non-null object \n",
" 6 is_deleted 4192 non-null int64 \n",
" 7 class_name 4192 non-null object \n",
" 8 price 4192 non-null int64 \n",
" 9 event_name 4192 non-null object \n",
"dtypes: datetime64[ns](2), int64(2), object(6)\n",
"memory usage: 360.2+ KB\n"
]
}
],
"source": [
"# 코드를 입력해 주세요\n",
"# datetime으로 변경을 확인하기 위해 정보를 조회하세요\n",
"user.info()"
]
},
{
"cell_type": "code",
"execution_count": 23,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"\n",
"\n",
"
\n",
" \n",
" \n",
" | \n",
" userid | \n",
" class | \n",
" gender | \n",
" start_date | \n",
" end_date | \n",
" event_type | \n",
" is_deleted | \n",
" class_name | \n",
" price | \n",
" event_name | \n",
" start_year | \n",
" start_month | \n",
" start_day | \n",
"
\n",
" \n",
" \n",
" \n",
" 0 | \n",
" OA832399 | \n",
" C01 | \n",
" F | \n",
" 2015-05-01 | \n",
" NaT | \n",
" CA1 | \n",
" 0 | \n",
" all | \n",
" 10000 | \n",
" None | \n",
" 2015 | \n",
" 5 | \n",
" 1 | \n",
"
\n",
" \n",
" 1 | \n",
" PL270116 | \n",
" C01 | \n",
" M | \n",
" 2015-05-01 | \n",
" NaT | \n",
" CA1 | \n",
" 0 | \n",
" all | \n",
" 10000 | \n",
" None | \n",
" 2015 | \n",
" 5 | \n",
" 1 | \n",
"
\n",
" \n",
" 2 | \n",
" OA974876 | \n",
" C01 | \n",
" M | \n",
" 2015-05-01 | \n",
" NaT | \n",
" CA1 | \n",
" 0 | \n",
" all | \n",
" 10000 | \n",
" None | \n",
" 2015 | \n",
" 5 | \n",
" 1 | \n",
"
\n",
" \n",
" 3 | \n",
" HD024127 | \n",
" C01 | \n",
" F | \n",
" 2015-05-01 | \n",
" NaT | \n",
" CA1 | \n",
" -1 | \n",
" all | \n",
" 10000 | \n",
" None | \n",
" 2015 | \n",
" 5 | \n",
" 1 | \n",
"
\n",
" \n",
" 4 | \n",
" IK271057 | \n",
" C01 | \n",
" M | \n",
" 2015-05-01 | \n",
" NaT | \n",
" CA1 | \n",
" 0 | \n",
" all | \n",
" 10000 | \n",
" None | \n",
" 2015 | \n",
" 5 | \n",
" 1 | \n",
"
\n",
" \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
"
\n",
" \n",
" 4187 | \n",
" IK562610 | \n",
" C02 | \n",
" F | \n",
" 2018-12-13 | \n",
" 2019-02-28 | \n",
" CA3 | \n",
" 1 | \n",
" day | \n",
" 7000 | \n",
" Free | \n",
" 2018 | \n",
" 12 | \n",
" 13 | \n",
"
\n",
" \n",
" 4188 | \n",
" HI599354 | \n",
" C02 | \n",
" M | \n",
" 2018-12-13 | \n",
" NaT | \n",
" CA3 | \n",
" 0 | \n",
" day | \n",
" 7000 | \n",
" Free | \n",
" 2018 | \n",
" 12 | \n",
" 13 | \n",
"
\n",
" \n",
" 4189 | \n",
" GD796859 | \n",
" C02 | \n",
" F | \n",
" 2018-12-14 | \n",
" NaT | \n",
" CA3 | \n",
" 0 | \n",
" day | \n",
" 7000 | \n",
" Free | \n",
" 2018 | \n",
" 12 | \n",
" 14 | \n",
"
\n",
" \n",
" 4190 | \n",
" GD082270 | \n",
" C02 | \n",
" F | \n",
" 2018-12-14 | \n",
" 2019-02-28 | \n",
" CA3 | \n",
" 1 | \n",
" day | \n",
" 7000 | \n",
" Free | \n",
" 2018 | \n",
" 12 | \n",
" 14 | \n",
"
\n",
" \n",
" 4191 | \n",
" OA426023 | \n",
" C02 | \n",
" F | \n",
" 2018-12-14 | \n",
" NaT | \n",
" CA3 | \n",
" 0 | \n",
" day | \n",
" 7000 | \n",
" Free | \n",
" 2018 | \n",
" 12 | \n",
" 14 | \n",
"
\n",
" \n",
"
\n",
"
4192 rows × 13 columns
\n",
"
"
],
"text/plain": [
" userid class gender start_date end_date event_type is_deleted \\\n",
"0 OA832399 C01 F 2015-05-01 NaT CA1 0 \n",
"1 PL270116 C01 M 2015-05-01 NaT CA1 0 \n",
"2 OA974876 C01 M 2015-05-01 NaT CA1 0 \n",
"3 HD024127 C01 F 2015-05-01 NaT CA1 -1 \n",
"4 IK271057 C01 M 2015-05-01 NaT CA1 0 \n",
"... ... ... ... ... ... ... ... \n",
"4187 IK562610 C02 F 2018-12-13 2019-02-28 CA3 1 \n",
"4188 HI599354 C02 M 2018-12-13 NaT CA3 0 \n",
"4189 GD796859 C02 F 2018-12-14 NaT CA3 0 \n",
"4190 GD082270 C02 F 2018-12-14 2019-02-28 CA3 1 \n",
"4191 OA426023 C02 F 2018-12-14 NaT CA3 0 \n",
"\n",
" class_name price event_name start_year start_month start_day \n",
"0 all 10000 None 2015 5 1 \n",
"1 all 10000 None 2015 5 1 \n",
"2 all 10000 None 2015 5 1 \n",
"3 all 10000 None 2015 5 1 \n",
"4 all 10000 None 2015 5 1 \n",
"... ... ... ... ... ... ... \n",
"4187 day 7000 Free 2018 12 13 \n",
"4188 day 7000 Free 2018 12 13 \n",
"4189 day 7000 Free 2018 12 14 \n",
"4190 day 7000 Free 2018 12 14 \n",
"4191 day 7000 Free 2018 12 14 \n",
"\n",
"[4192 rows x 13 columns]"
]
},
"execution_count": 23,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# 코드를 입력해 주세요\n",
"# start_date 컬럼을 기반으로 start_year, start_month, start_day 컬럼을 추가하세요\n",
"# dt 사용\n",
"user['start_year'] = user['start_date'].dt.year\n",
"user['start_month'] = user['start_date'].dt.month\n",
"user['start_day'] = user['start_date'].dt.day\n",
"user"
]
},
{
"cell_type": "code",
"execution_count": 24,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"\n",
"\n",
"
\n",
" \n",
" \n",
" | \n",
" userid | \n",
" class | \n",
" gender | \n",
" start_date | \n",
" end_date | \n",
" event_type | \n",
" is_deleted | \n",
" class_name | \n",
" price | \n",
" event_name | \n",
" start_year | \n",
" start_month | \n",
" start_day | \n",
" end_year | \n",
" end_month | \n",
" end_day | \n",
"
\n",
" \n",
" \n",
" \n",
" 0 | \n",
" OA832399 | \n",
" C01 | \n",
" F | \n",
" 2015-05-01 | \n",
" NaT | \n",
" CA1 | \n",
" 0 | \n",
" all | \n",
" 10000 | \n",
" None | \n",
" 2015 | \n",
" 5 | \n",
" 1 | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
"
\n",
" \n",
" 1 | \n",
" PL270116 | \n",
" C01 | \n",
" M | \n",
" 2015-05-01 | \n",
" NaT | \n",
" CA1 | \n",
" 0 | \n",
" all | \n",
" 10000 | \n",
" None | \n",
" 2015 | \n",
" 5 | \n",
" 1 | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
"
\n",
" \n",
" 2 | \n",
" OA974876 | \n",
" C01 | \n",
" M | \n",
" 2015-05-01 | \n",
" NaT | \n",
" CA1 | \n",
" 0 | \n",
" all | \n",
" 10000 | \n",
" None | \n",
" 2015 | \n",
" 5 | \n",
" 1 | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
"
\n",
" \n",
" 3 | \n",
" HD024127 | \n",
" C01 | \n",
" F | \n",
" 2015-05-01 | \n",
" NaT | \n",
" CA1 | \n",
" -1 | \n",
" all | \n",
" 10000 | \n",
" None | \n",
" 2015 | \n",
" 5 | \n",
" 1 | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
"
\n",
" \n",
" 4 | \n",
" IK271057 | \n",
" C01 | \n",
" M | \n",
" 2015-05-01 | \n",
" NaT | \n",
" CA1 | \n",
" 0 | \n",
" all | \n",
" 10000 | \n",
" None | \n",
" 2015 | \n",
" 5 | \n",
" 1 | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
"
\n",
" \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
"
\n",
" \n",
" 4187 | \n",
" IK562610 | \n",
" C02 | \n",
" F | \n",
" 2018-12-13 | \n",
" 2019-02-28 | \n",
" CA3 | \n",
" 1 | \n",
" day | \n",
" 7000 | \n",
" Free | \n",
" 2018 | \n",
" 12 | \n",
" 13 | \n",
" 2019.0 | \n",
" 2.0 | \n",
" 28.0 | \n",
"
\n",
" \n",
" 4188 | \n",
" HI599354 | \n",
" C02 | \n",
" M | \n",
" 2018-12-13 | \n",
" NaT | \n",
" CA3 | \n",
" 0 | \n",
" day | \n",
" 7000 | \n",
" Free | \n",
" 2018 | \n",
" 12 | \n",
" 13 | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
"
\n",
" \n",
" 4189 | \n",
" GD796859 | \n",
" C02 | \n",
" F | \n",
" 2018-12-14 | \n",
" NaT | \n",
" CA3 | \n",
" 0 | \n",
" day | \n",
" 7000 | \n",
" Free | \n",
" 2018 | \n",
" 12 | \n",
" 14 | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
"
\n",
" \n",
" 4190 | \n",
" GD082270 | \n",
" C02 | \n",
" F | \n",
" 2018-12-14 | \n",
" 2019-02-28 | \n",
" CA3 | \n",
" 1 | \n",
" day | \n",
" 7000 | \n",
" Free | \n",
" 2018 | \n",
" 12 | \n",
" 14 | \n",
" 2019.0 | \n",
" 2.0 | \n",
" 28.0 | \n",
"
\n",
" \n",
" 4191 | \n",
" OA426023 | \n",
" C02 | \n",
" F | \n",
" 2018-12-14 | \n",
" NaT | \n",
" CA3 | \n",
" 0 | \n",
" day | \n",
" 7000 | \n",
" Free | \n",
" 2018 | \n",
" 12 | \n",
" 14 | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
"
\n",
" \n",
"
\n",
"
4192 rows × 16 columns
\n",
"
"
],
"text/plain": [
" userid class gender start_date end_date event_type is_deleted \\\n",
"0 OA832399 C01 F 2015-05-01 NaT CA1 0 \n",
"1 PL270116 C01 M 2015-05-01 NaT CA1 0 \n",
"2 OA974876 C01 M 2015-05-01 NaT CA1 0 \n",
"3 HD024127 C01 F 2015-05-01 NaT CA1 -1 \n",
"4 IK271057 C01 M 2015-05-01 NaT CA1 0 \n",
"... ... ... ... ... ... ... ... \n",
"4187 IK562610 C02 F 2018-12-13 2019-02-28 CA3 1 \n",
"4188 HI599354 C02 M 2018-12-13 NaT CA3 0 \n",
"4189 GD796859 C02 F 2018-12-14 NaT CA3 0 \n",
"4190 GD082270 C02 F 2018-12-14 2019-02-28 CA3 1 \n",
"4191 OA426023 C02 F 2018-12-14 NaT CA3 0 \n",
"\n",
" class_name price event_name start_year start_month start_day \\\n",
"0 all 10000 None 2015 5 1 \n",
"1 all 10000 None 2015 5 1 \n",
"2 all 10000 None 2015 5 1 \n",
"3 all 10000 None 2015 5 1 \n",
"4 all 10000 None 2015 5 1 \n",
"... ... ... ... ... ... ... \n",
"4187 day 7000 Free 2018 12 13 \n",
"4188 day 7000 Free 2018 12 13 \n",
"4189 day 7000 Free 2018 12 14 \n",
"4190 day 7000 Free 2018 12 14 \n",
"4191 day 7000 Free 2018 12 14 \n",
"\n",
" end_year end_month end_day \n",
"0 NaN NaN NaN \n",
"1 NaN NaN NaN \n",
"2 NaN NaN NaN \n",
"3 NaN NaN NaN \n",
"4 NaN NaN NaN \n",
"... ... ... ... \n",
"4187 2019.0 2.0 28.0 \n",
"4188 NaN NaN NaN \n",
"4189 NaN NaN NaN \n",
"4190 2019.0 2.0 28.0 \n",
"4191 NaN NaN NaN \n",
"\n",
"[4192 rows x 16 columns]"
]
},
"execution_count": 24,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# 코드를 입력해 주세요\n",
"# end_date 컬럼을 기반으로 end_year, end_month, end_day 컬럼을 추가하세요\n",
"# dt 사용\n",
"user['end_year'] = user['end_date'].dt.year\n",
"user['end_month'] = user['end_date'].dt.month\n",
"user['end_day'] = user['end_date'].dt.day\n",
"user"
]
},
{
"cell_type": "code",
"execution_count": 25,
"metadata": {
"scrolled": true
},
"outputs": [
{
"data": {
"text/plain": [
"start_year start_month\n",
"2015 5 62\n",
" 6 69\n",
" 7 53\n",
" 8 53\n",
" 9 71\n",
" 10 54\n",
" 11 63\n",
" 12 67\n",
"2016 1 56\n",
" 2 48\n",
" 3 55\n",
" 4 57\n",
" 5 56\n",
" 6 76\n",
" 7 69\n",
" 8 77\n",
" 9 75\n",
" 10 71\n",
" 11 65\n",
" 12 76\n",
"2017 1 75\n",
" 2 74\n",
" 3 72\n",
" 4 99\n",
" 5 105\n",
" 6 95\n",
" 7 100\n",
" 8 122\n",
" 9 115\n",
" 10 98\n",
" 11 108\n",
" 12 160\n",
"2018 1 122\n",
" 2 104\n",
" 3 94\n",
" 4 175\n",
" 5 193\n",
" 6 166\n",
" 7 135\n",
" 8 102\n",
" 9 88\n",
" 10 66\n",
" 11 65\n",
" 12 157\n",
"2019 1 90\n",
" 2 74\n",
" 3 65\n",
"Name: userid, dtype: int64"
]
},
"execution_count": 25,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# 코드를 입력해 주세요\n",
"# start_year와 start_month 컬럼을 이용하여 월별 신규 회원의 수를 조회하세요\n",
"user.groupby(['start_year', 'start_month'])['userid'].count()"
]
},
{
"cell_type": "code",
"execution_count": 26,
"metadata": {},
"outputs": [
{
"data": {
"image/png": "\n",
"text/plain": [
""
]
},
"metadata": {
"needs_background": "light"
},
"output_type": "display_data"
}
],
"source": [
"# 코드를 입력해 주세요\n",
"# 해당 결과를 시각화 하세요\n",
"user.groupby(['start_year', 'start_month'])['userid'].count().plot()\n",
"plt.show()"
]
},
{
"cell_type": "code",
"execution_count": 27,
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"end_year end_month\n",
"2018.0 4.0 121\n",
" 5.0 125\n",
" 6.0 106\n",
" 7.0 102\n",
" 8.0 113\n",
" 9.0 104\n",
" 10.0 90\n",
" 11.0 89\n",
" 12.0 111\n",
"2019.0 1.0 129\n",
" 2.0 149\n",
" 3.0 111\n",
"Name: userid, dtype: int64"
]
},
"execution_count": 27,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# 코드를 입력해 주세요\n",
"# end_year와 end_month 컬럼을 이용하여 월별 탈퇴 회원의 수를 조회하세요\n",
"user.groupby(['end_year', 'end_month'])['userid'].count()"
]
},
{
"cell_type": "code",
"execution_count": 28,
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
""
]
},
"execution_count": 28,
"metadata": {},
"output_type": "execute_result"
},
{
"data": {
"image/png": "\n",
"text/plain": [
""
]
},
"metadata": {
"needs_background": "light"
},
"output_type": "display_data"
}
],
"source": [
"# 코드를 입력해 주세요\n",
"# 해당 결과를 시각화 하세요\n",
"user.groupby(['end_year', 'end_month'])['userid'].count().plot()"
]
},
{
"cell_type": "code",
"execution_count": 29,
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"start_year start_month\n",
"2018 5 193\n",
" 4 175\n",
" 6 166\n",
"2017 12 160\n",
"2018 12 157\n",
"Name: userid, dtype: int64"
]
},
"execution_count": 29,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# 코드를 입력해 주세요\n",
"# 신규 가입이 가장 많은 상위 5개의 달을 조회하세요.\n",
"user.groupby(['start_year', 'start_month'])['userid'].count().sort_values(ascending=False).head()"
]
},
{
"cell_type": "code",
"execution_count": 30,
"metadata": {
"scrolled": true
},
"outputs": [
{
"data": {
"text/html": [
"\n",
"\n",
"
\n",
" \n",
" \n",
" | \n",
" userid | \n",
" class | \n",
" gender | \n",
" start_date | \n",
" end_date | \n",
" event_type | \n",
" is_deleted | \n",
" class_name | \n",
" price | \n",
" event_name | \n",
" start_year | \n",
" start_month | \n",
" start_day | \n",
" end_year | \n",
" end_month | \n",
" end_day | \n",
"
\n",
" \n",
" \n",
" \n",
" 3204 | \n",
" HD805503 | \n",
" C01 | \n",
" M | \n",
" 2018-05-01 | \n",
" NaT | \n",
" CA2 | \n",
" -1 | \n",
" all | \n",
" 10000 | \n",
" Sale | \n",
" 2018 | \n",
" 5 | \n",
" 1 | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
"
\n",
" \n",
" 3205 | \n",
" IK000432 | \n",
" C01 | \n",
" F | \n",
" 2018-05-01 | \n",
" 2019-03-31 | \n",
" CA2 | \n",
" 1 | \n",
" all | \n",
" 10000 | \n",
" Sale | \n",
" 2018 | \n",
" 5 | \n",
" 1 | \n",
" 2019.0 | \n",
" 3.0 | \n",
" 31.0 | \n",
"
\n",
" \n",
" 3206 | \n",
" AS247467 | \n",
" C01 | \n",
" M | \n",
" 2018-05-01 | \n",
" 2018-11-30 | \n",
" CA2 | \n",
" -1 | \n",
" all | \n",
" 10000 | \n",
" Sale | \n",
" 2018 | \n",
" 5 | \n",
" 1 | \n",
" 2018.0 | \n",
" 11.0 | \n",
" 30.0 | \n",
"
\n",
" \n",
" 3207 | \n",
" OA777947 | \n",
" C01 | \n",
" M | \n",
" 2018-05-01 | \n",
" 2018-12-31 | \n",
" CA2 | \n",
" -1 | \n",
" all | \n",
" 10000 | \n",
" Sale | \n",
" 2018 | \n",
" 5 | \n",
" 1 | \n",
" 2018.0 | \n",
" 12.0 | \n",
" 31.0 | \n",
"
\n",
" \n",
" 3208 | \n",
" HI630247 | \n",
" C01 | \n",
" M | \n",
" 2018-05-01 | \n",
" NaT | \n",
" CA2 | \n",
" 0 | \n",
" all | \n",
" 10000 | \n",
" Sale | \n",
" 2018 | \n",
" 5 | \n",
" 1 | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
"
\n",
" \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
"
\n",
" \n",
" 4153 | \n",
" PL850297 | \n",
" C02 | \n",
" F | \n",
" 2018-04-15 | \n",
" 2018-05-31 | \n",
" CA3 | \n",
" 1 | \n",
" day | \n",
" 7000 | \n",
" Free | \n",
" 2018 | \n",
" 4 | \n",
" 15 | \n",
" 2018.0 | \n",
" 5.0 | \n",
" 31.0 | \n",
"
\n",
" \n",
" 4154 | \n",
" HD104614 | \n",
" C02 | \n",
" F | \n",
" 2018-04-15 | \n",
" 2019-02-28 | \n",
" CA3 | \n",
" 1 | \n",
" day | \n",
" 7000 | \n",
" Free | \n",
" 2018 | \n",
" 4 | \n",
" 15 | \n",
" 2019.0 | \n",
" 2.0 | \n",
" 28.0 | \n",
"
\n",
" \n",
" 4155 | \n",
" AS628722 | \n",
" C02 | \n",
" F | \n",
" 2018-04-15 | \n",
" 2019-02-28 | \n",
" CA3 | \n",
" 1 | \n",
" day | \n",
" 7000 | \n",
" Free | \n",
" 2018 | \n",
" 4 | \n",
" 15 | \n",
" 2019.0 | \n",
" 2.0 | \n",
" 28.0 | \n",
"
\n",
" \n",
" 4156 | \n",
" GD716223 | \n",
" C02 | \n",
" F | \n",
" 2018-04-15 | \n",
" NaT | \n",
" CA3 | \n",
" 0 | \n",
" day | \n",
" 7000 | \n",
" Free | \n",
" 2018 | \n",
" 4 | \n",
" 15 | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
"
\n",
" \n",
" 4157 | \n",
" HD981197 | \n",
" C02 | \n",
" F | \n",
" 2018-04-15 | \n",
" 2018-12-31 | \n",
" CA3 | \n",
" 1 | \n",
" day | \n",
" 7000 | \n",
" Free | \n",
" 2018 | \n",
" 4 | \n",
" 15 | \n",
" 2018.0 | \n",
" 12.0 | \n",
" 31.0 | \n",
"
\n",
" \n",
"
\n",
"
534 rows × 16 columns
\n",
"
"
],
"text/plain": [
" userid class gender start_date end_date event_type is_deleted \\\n",
"3204 HD805503 C01 M 2018-05-01 NaT CA2 -1 \n",
"3205 IK000432 C01 F 2018-05-01 2019-03-31 CA2 1 \n",
"3206 AS247467 C01 M 2018-05-01 2018-11-30 CA2 -1 \n",
"3207 OA777947 C01 M 2018-05-01 2018-12-31 CA2 -1 \n",
"3208 HI630247 C01 M 2018-05-01 NaT CA2 0 \n",
"... ... ... ... ... ... ... ... \n",
"4153 PL850297 C02 F 2018-04-15 2018-05-31 CA3 1 \n",
"4154 HD104614 C02 F 2018-04-15 2019-02-28 CA3 1 \n",
"4155 AS628722 C02 F 2018-04-15 2019-02-28 CA3 1 \n",
"4156 GD716223 C02 F 2018-04-15 NaT CA3 0 \n",
"4157 HD981197 C02 F 2018-04-15 2018-12-31 CA3 1 \n",
"\n",
" class_name price event_name start_year start_month start_day \\\n",
"3204 all 10000 Sale 2018 5 1 \n",
"3205 all 10000 Sale 2018 5 1 \n",
"3206 all 10000 Sale 2018 5 1 \n",
"3207 all 10000 Sale 2018 5 1 \n",
"3208 all 10000 Sale 2018 5 1 \n",
"... ... ... ... ... ... ... \n",
"4153 day 7000 Free 2018 4 15 \n",
"4154 day 7000 Free 2018 4 15 \n",
"4155 day 7000 Free 2018 4 15 \n",
"4156 day 7000 Free 2018 4 15 \n",
"4157 day 7000 Free 2018 4 15 \n",
"\n",
" end_year end_month end_day \n",
"3204 NaN NaN NaN \n",
"3205 2019.0 3.0 31.0 \n",
"3206 2018.0 11.0 30.0 \n",
"3207 2018.0 12.0 31.0 \n",
"3208 NaN NaN NaN \n",
"... ... ... ... \n",
"4153 2018.0 5.0 31.0 \n",
"4154 2019.0 2.0 28.0 \n",
"4155 2019.0 2.0 28.0 \n",
"4156 NaN NaN NaN \n",
"4157 2018.0 12.0 31.0 \n",
"\n",
"[534 rows x 16 columns]"
]
},
"execution_count": 30,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# 코드를 입력해 주세요\n",
"# 2018년 4~6월 데이터만 추출하세요. 결과를 top3 변수에 저장하세요.\n",
"top3 = user.loc[ (user['start_year'] == 2018) & (user['start_month'].isin([4,5,6])), : ]\n",
"top3"
]
},
{
"cell_type": "code",
"execution_count": 31,
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"Sale 359\n",
"Free 175\n",
"Name: event_name, dtype: int64"
]
},
"execution_count": 31,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# 코드를 입력해 주세요\n",
"# top3 데이터 프레임의 event_name 컬럼의 고유값별 개수를 조회하세요\n",
"top3['event_name'].value_counts()"
]
},
{
"cell_type": "code",
"execution_count": 32,
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"all 272\n",
"night 140\n",
"day 122\n",
"Name: class_name, dtype: int64"
]
},
"execution_count": 32,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# 코드를 입력해 주세요\n",
"# top3 데이터 프레임의 class_name 컬럼의 고유값별 개수를 조회하세요\n",
"top3['class_name'].value_counts()"
]
},
{
"cell_type": "code",
"execution_count": 33,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"\n",
"\n",
"
\n",
" \n",
" \n",
" | \n",
" log | \n",
" userid | \n",
" date | \n",
"
\n",
" \n",
" \n",
" \n",
" 0 | \n",
" L00000049012330 | \n",
" AS009373 | \n",
" 2018-04-01 | \n",
"
\n",
" \n",
" 1 | \n",
" L00000049012331 | \n",
" AS015315 | \n",
" 2018-04-01 | \n",
"
\n",
" \n",
" 2 | \n",
" L00000049012332 | \n",
" AS040841 | \n",
" 2018-04-01 | \n",
"
\n",
" \n",
" 3 | \n",
" L00000049012333 | \n",
" AS046594 | \n",
" 2018-04-01 | \n",
"
\n",
" \n",
" 4 | \n",
" L00000049012334 | \n",
" AS073285 | \n",
" 2018-04-01 | \n",
"
\n",
" \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
"
\n",
" \n",
" 197423 | \n",
" L00000049209753 | \n",
" TS977703 | \n",
" 2019-03-31 | \n",
"
\n",
" \n",
" 197424 | \n",
" L00000049209754 | \n",
" TS979550 | \n",
" 2019-03-31 | \n",
"
\n",
" \n",
" 197425 | \n",
" L00000049209755 | \n",
" TS995299 | \n",
" 2019-03-31 | \n",
"
\n",
" \n",
" 197426 | \n",
" L00000049209756 | \n",
" TS995853 | \n",
" 2019-03-31 | \n",
"
\n",
" \n",
" 197427 | \n",
" L00000049209757 | \n",
" TS999079 | \n",
" 2019-03-31 | \n",
"
\n",
" \n",
"
\n",
"
197428 rows × 3 columns
\n",
"
"
],
"text/plain": [
" log userid date\n",
"0 L00000049012330 AS009373 2018-04-01\n",
"1 L00000049012331 AS015315 2018-04-01\n",
"2 L00000049012332 AS040841 2018-04-01\n",
"3 L00000049012333 AS046594 2018-04-01\n",
"4 L00000049012334 AS073285 2018-04-01\n",
"... ... ... ...\n",
"197423 L00000049209753 TS977703 2019-03-31\n",
"197424 L00000049209754 TS979550 2019-03-31\n",
"197425 L00000049209755 TS995299 2019-03-31\n",
"197426 L00000049209756 TS995853 2019-03-31\n",
"197427 L00000049209757 TS999079 2019-03-31\n",
"\n",
"[197428 rows x 3 columns]"
]
},
"execution_count": 33,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# 코드를 입력해 주세요\n",
"# df_logs의 date 컬럼을 datetime 형식으로 변경하세요.\n",
"df_logs['date'] = pd.to_datetime(df_logs['date'])\n",
"df_logs"
]
},
{
"cell_type": "code",
"execution_count": 34,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"\n",
"\n",
"
\n",
" \n",
" \n",
" | \n",
" log | \n",
" userid | \n",
" date | \n",
" month | \n",
"
\n",
" \n",
" \n",
" \n",
" 0 | \n",
" L00000049012330 | \n",
" AS009373 | \n",
" 2018-04-01 | \n",
" 201804 | \n",
"
\n",
" \n",
" 1 | \n",
" L00000049012331 | \n",
" AS015315 | \n",
" 2018-04-01 | \n",
" 201804 | \n",
"
\n",
" \n",
" 2 | \n",
" L00000049012332 | \n",
" AS040841 | \n",
" 2018-04-01 | \n",
" 201804 | \n",
"
\n",
" \n",
" 3 | \n",
" L00000049012333 | \n",
" AS046594 | \n",
" 2018-04-01 | \n",
" 201804 | \n",
"
\n",
" \n",
" 4 | \n",
" L00000049012334 | \n",
" AS073285 | \n",
" 2018-04-01 | \n",
" 201804 | \n",
"
\n",
" \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
"
\n",
" \n",
" 197423 | \n",
" L00000049209753 | \n",
" TS977703 | \n",
" 2019-03-31 | \n",
" 201903 | \n",
"
\n",
" \n",
" 197424 | \n",
" L00000049209754 | \n",
" TS979550 | \n",
" 2019-03-31 | \n",
" 201903 | \n",
"
\n",
" \n",
" 197425 | \n",
" L00000049209755 | \n",
" TS995299 | \n",
" 2019-03-31 | \n",
" 201903 | \n",
"
\n",
" \n",
" 197426 | \n",
" L00000049209756 | \n",
" TS995853 | \n",
" 2019-03-31 | \n",
" 201903 | \n",
"
\n",
" \n",
" 197427 | \n",
" L00000049209757 | \n",
" TS999079 | \n",
" 2019-03-31 | \n",
" 201903 | \n",
"
\n",
" \n",
"
\n",
"
197428 rows × 4 columns
\n",
"
"
],
"text/plain": [
" log userid date month\n",
"0 L00000049012330 AS009373 2018-04-01 201804\n",
"1 L00000049012331 AS015315 2018-04-01 201804\n",
"2 L00000049012332 AS040841 2018-04-01 201804\n",
"3 L00000049012333 AS046594 2018-04-01 201804\n",
"4 L00000049012334 AS073285 2018-04-01 201804\n",
"... ... ... ... ...\n",
"197423 L00000049209753 TS977703 2019-03-31 201903\n",
"197424 L00000049209754 TS979550 2019-03-31 201903\n",
"197425 L00000049209755 TS995299 2019-03-31 201903\n",
"197426 L00000049209756 TS995853 2019-03-31 201903\n",
"197427 L00000049209757 TS999079 2019-03-31 201903\n",
"\n",
"[197428 rows x 4 columns]"
]
},
"execution_count": 34,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# df_logs의 date 컬럼을 년월 형태로 표현하세요.\n",
"# dt와 strftime 함수 이용\n",
"df_logs['month'] = df_logs['date'].dt.strftime('%Y%m')\n",
"df_logs"
]
},
{
"cell_type": "code",
"execution_count": 35,
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"month userid \n",
"201804 AS002855 4\n",
" AS009013 2\n",
" AS009373 3\n",
" AS015315 6\n",
" AS015739 7\n",
" ..\n",
"201903 TS995853 8\n",
" TS998593 8\n",
" TS999079 3\n",
" TS999231 6\n",
" TS999855 4\n",
"Name: log, Length: 36842, dtype: int64"
]
},
"execution_count": 35,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# 코드를 입력해 주세요\n",
"# df_logs에서 date와 userid를 기준으로 그룹을 생성 후 log의 개수를 카운트하세요.\n",
"df_logs_month = df_logs.groupby(['month','userid'])['log'].count()\n",
"df_logs_month"
]
},
{
"cell_type": "code",
"execution_count": 36,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"\n",
"\n",
"
\n",
" \n",
" \n",
" | \n",
" month | \n",
" userid | \n",
" log | \n",
"
\n",
" \n",
" \n",
" \n",
" 0 | \n",
" 201804 | \n",
" AS002855 | \n",
" 4 | \n",
"
\n",
" \n",
" 1 | \n",
" 201804 | \n",
" AS009013 | \n",
" 2 | \n",
"
\n",
" \n",
" 2 | \n",
" 201804 | \n",
" AS009373 | \n",
" 3 | \n",
"
\n",
" \n",
" 3 | \n",
" 201804 | \n",
" AS015315 | \n",
" 6 | \n",
"
\n",
" \n",
" 4 | \n",
" 201804 | \n",
" AS015739 | \n",
" 7 | \n",
"
\n",
" \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
"
\n",
" \n",
" 36837 | \n",
" 201903 | \n",
" TS995853 | \n",
" 8 | \n",
"
\n",
" \n",
" 36838 | \n",
" 201903 | \n",
" TS998593 | \n",
" 8 | \n",
"
\n",
" \n",
" 36839 | \n",
" 201903 | \n",
" TS999079 | \n",
" 3 | \n",
"
\n",
" \n",
" 36840 | \n",
" 201903 | \n",
" TS999231 | \n",
" 6 | \n",
"
\n",
" \n",
" 36841 | \n",
" 201903 | \n",
" TS999855 | \n",
" 4 | \n",
"
\n",
" \n",
"
\n",
"
36842 rows × 3 columns
\n",
"
"
],
"text/plain": [
" month userid log\n",
"0 201804 AS002855 4\n",
"1 201804 AS009013 2\n",
"2 201804 AS009373 3\n",
"3 201804 AS015315 6\n",
"4 201804 AS015739 7\n",
"... ... ... ...\n",
"36837 201903 TS995853 8\n",
"36838 201903 TS998593 8\n",
"36839 201903 TS999079 3\n",
"36840 201903 TS999231 6\n",
"36841 201903 TS999855 4\n",
"\n",
"[36842 rows x 3 columns]"
]
},
"execution_count": 36,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# 코드를 입력해 주세요\n",
"# df_logs_month 데이터 프레임의 인덱스를 초기화 하세요.\n",
"df_logs_month = df_logs_month.reset_index()\n",
"df_logs_month"
]
},
{
"cell_type": "code",
"execution_count": 37,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"\n",
"\n",
"
\n",
" \n",
" \n",
" | \n",
" month | \n",
" userid | \n",
" freq | \n",
"
\n",
" \n",
" \n",
" \n",
" 0 | \n",
" 201804 | \n",
" AS002855 | \n",
" 4 | \n",
"
\n",
" \n",
" 1 | \n",
" 201804 | \n",
" AS009013 | \n",
" 2 | \n",
"
\n",
" \n",
" 2 | \n",
" 201804 | \n",
" AS009373 | \n",
" 3 | \n",
"
\n",
" \n",
" 3 | \n",
" 201804 | \n",
" AS015315 | \n",
" 6 | \n",
"
\n",
" \n",
" 4 | \n",
" 201804 | \n",
" AS015739 | \n",
" 7 | \n",
"
\n",
" \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
"
\n",
" \n",
" 36837 | \n",
" 201903 | \n",
" TS995853 | \n",
" 8 | \n",
"
\n",
" \n",
" 36838 | \n",
" 201903 | \n",
" TS998593 | \n",
" 8 | \n",
"
\n",
" \n",
" 36839 | \n",
" 201903 | \n",
" TS999079 | \n",
" 3 | \n",
"
\n",
" \n",
" 36840 | \n",
" 201903 | \n",
" TS999231 | \n",
" 6 | \n",
"
\n",
" \n",
" 36841 | \n",
" 201903 | \n",
" TS999855 | \n",
" 4 | \n",
"
\n",
" \n",
"
\n",
"
36842 rows × 3 columns
\n",
"
"
],
"text/plain": [
" month userid freq\n",
"0 201804 AS002855 4\n",
"1 201804 AS009013 2\n",
"2 201804 AS009373 3\n",
"3 201804 AS015315 6\n",
"4 201804 AS015739 7\n",
"... ... ... ...\n",
"36837 201903 TS995853 8\n",
"36838 201903 TS998593 8\n",
"36839 201903 TS999079 3\n",
"36840 201903 TS999231 6\n",
"36841 201903 TS999855 4\n",
"\n",
"[36842 rows x 3 columns]"
]
},
"execution_count": 37,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# 코드를 입력해 주세요\n",
"# df_logs_month 데이터 프레임의 log 컬럼의 이름을 freq로 변경하세요\n",
"df_logs_month.rename(columns={'log':'freq'}, inplace=True)\n",
"df_logs_month"
]
},
{
"cell_type": "code",
"execution_count": 38,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"\n",
"\n",
"
\n",
" \n",
" \n",
" | \n",
" min | \n",
" median | \n",
" mean | \n",
" max | \n",
" sum | \n",
"
\n",
" \n",
" userid | \n",
" | \n",
" | \n",
" | \n",
" | \n",
" | \n",
"
\n",
" \n",
" \n",
" \n",
" AS002855 | \n",
" 2 | \n",
" 5.0 | \n",
" 4.500000 | \n",
" 7 | \n",
" 54 | \n",
"
\n",
" \n",
" AS008805 | \n",
" 1 | \n",
" 4.0 | \n",
" 4.000000 | \n",
" 8 | \n",
" 40 | \n",
"
\n",
" \n",
" AS009013 | \n",
" 2 | \n",
" 2.0 | \n",
" 2.000000 | \n",
" 2 | \n",
" 2 | \n",
"
\n",
" \n",
" AS009373 | \n",
" 3 | \n",
" 5.0 | \n",
" 5.083333 | \n",
" 7 | \n",
" 61 | \n",
"
\n",
" \n",
" AS015233 | \n",
" 4 | \n",
" 7.0 | \n",
" 7.545455 | \n",
" 11 | \n",
" 83 | \n",
"
\n",
" \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
"
\n",
" \n",
" TS995853 | \n",
" 8 | \n",
" 9.5 | \n",
" 9.500000 | \n",
" 11 | \n",
" 19 | \n",
"
\n",
" \n",
" TS998593 | \n",
" 7 | \n",
" 8.0 | \n",
" 8.142857 | \n",
" 9 | \n",
" 57 | \n",
"
\n",
" \n",
" TS999079 | \n",
" 2 | \n",
" 5.5 | \n",
" 4.916667 | \n",
" 9 | \n",
" 59 | \n",
"
\n",
" \n",
" TS999231 | \n",
" 1 | \n",
" 5.0 | \n",
" 4.666667 | \n",
" 8 | \n",
" 56 | \n",
"
\n",
" \n",
" TS999855 | \n",
" 3 | \n",
" 4.0 | \n",
" 4.583333 | \n",
" 7 | \n",
" 55 | \n",
"
\n",
" \n",
"
\n",
"
4192 rows × 5 columns
\n",
"
"
],
"text/plain": [
" min median mean max sum\n",
"userid \n",
"AS002855 2 5.0 4.500000 7 54\n",
"AS008805 1 4.0 4.000000 8 40\n",
"AS009013 2 2.0 2.000000 2 2\n",
"AS009373 3 5.0 5.083333 7 61\n",
"AS015233 4 7.0 7.545455 11 83\n",
"... ... ... ... ... ...\n",
"TS995853 8 9.5 9.500000 11 19\n",
"TS998593 7 8.0 8.142857 9 57\n",
"TS999079 2 5.5 4.916667 9 59\n",
"TS999231 1 5.0 4.666667 8 56\n",
"TS999855 3 4.0 4.583333 7 55\n",
"\n",
"[4192 rows x 5 columns]"
]
},
"execution_count": 38,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# 코드를 입력해 주세요\n",
"# df_logs_month 데이터 프레임의 userid를 이용하여 freq 컬럼의 최소, 중앙값, 평균, 최대, 합계를 계산하세요.\n",
"user_log = df_logs_month.groupby('userid')['freq'].agg(['min', 'median', 'mean', 'max', 'sum'])\n",
"user_log"
]
},
{
"cell_type": "code",
"execution_count": 39,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"\n",
"\n",
"
\n",
" \n",
" \n",
" | \n",
" userid | \n",
" min | \n",
" median | \n",
" mean | \n",
" max | \n",
" sum | \n",
"
\n",
" \n",
" \n",
" \n",
" 0 | \n",
" AS002855 | \n",
" 2 | \n",
" 5.0 | \n",
" 4.500000 | \n",
" 7 | \n",
" 54 | \n",
"
\n",
" \n",
" 1 | \n",
" AS008805 | \n",
" 1 | \n",
" 4.0 | \n",
" 4.000000 | \n",
" 8 | \n",
" 40 | \n",
"
\n",
" \n",
" 2 | \n",
" AS009013 | \n",
" 2 | \n",
" 2.0 | \n",
" 2.000000 | \n",
" 2 | \n",
" 2 | \n",
"
\n",
" \n",
" 3 | \n",
" AS009373 | \n",
" 3 | \n",
" 5.0 | \n",
" 5.083333 | \n",
" 7 | \n",
" 61 | \n",
"
\n",
" \n",
" 4 | \n",
" AS015233 | \n",
" 4 | \n",
" 7.0 | \n",
" 7.545455 | \n",
" 11 | \n",
" 83 | \n",
"
\n",
" \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
"
\n",
" \n",
" 4187 | \n",
" TS995853 | \n",
" 8 | \n",
" 9.5 | \n",
" 9.500000 | \n",
" 11 | \n",
" 19 | \n",
"
\n",
" \n",
" 4188 | \n",
" TS998593 | \n",
" 7 | \n",
" 8.0 | \n",
" 8.142857 | \n",
" 9 | \n",
" 57 | \n",
"
\n",
" \n",
" 4189 | \n",
" TS999079 | \n",
" 2 | \n",
" 5.5 | \n",
" 4.916667 | \n",
" 9 | \n",
" 59 | \n",
"
\n",
" \n",
" 4190 | \n",
" TS999231 | \n",
" 1 | \n",
" 5.0 | \n",
" 4.666667 | \n",
" 8 | \n",
" 56 | \n",
"
\n",
" \n",
" 4191 | \n",
" TS999855 | \n",
" 3 | \n",
" 4.0 | \n",
" 4.583333 | \n",
" 7 | \n",
" 55 | \n",
"
\n",
" \n",
"
\n",
"
4192 rows × 6 columns
\n",
"
"
],
"text/plain": [
" userid min median mean max sum\n",
"0 AS002855 2 5.0 4.500000 7 54\n",
"1 AS008805 1 4.0 4.000000 8 40\n",
"2 AS009013 2 2.0 2.000000 2 2\n",
"3 AS009373 3 5.0 5.083333 7 61\n",
"4 AS015233 4 7.0 7.545455 11 83\n",
"... ... ... ... ... ... ...\n",
"4187 TS995853 8 9.5 9.500000 11 19\n",
"4188 TS998593 7 8.0 8.142857 9 57\n",
"4189 TS999079 2 5.5 4.916667 9 59\n",
"4190 TS999231 1 5.0 4.666667 8 56\n",
"4191 TS999855 3 4.0 4.583333 7 55\n",
"\n",
"[4192 rows x 6 columns]"
]
},
"execution_count": 39,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# 코드를 입력해 주세요\n",
"# user_log 데이터 프레임의 인덱스를 초기화 하세요.\n",
"user_log.reset_index(inplace=True)\n",
"user_log"
]
},
{
"cell_type": "code",
"execution_count": 40,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"\n",
"\n",
"
\n",
" \n",
" \n",
" | \n",
" log | \n",
" userid | \n",
" date | \n",
" month | \n",
" wday | \n",
"
\n",
" \n",
" \n",
" \n",
" 0 | \n",
" L00000049012330 | \n",
" AS009373 | \n",
" 2018-04-01 | \n",
" 201804 | \n",
" 6 | \n",
"
\n",
" \n",
" 1 | \n",
" L00000049012331 | \n",
" AS015315 | \n",
" 2018-04-01 | \n",
" 201804 | \n",
" 6 | \n",
"
\n",
" \n",
" 2 | \n",
" L00000049012332 | \n",
" AS040841 | \n",
" 2018-04-01 | \n",
" 201804 | \n",
" 6 | \n",
"
\n",
" \n",
" 3 | \n",
" L00000049012333 | \n",
" AS046594 | \n",
" 2018-04-01 | \n",
" 201804 | \n",
" 6 | \n",
"
\n",
" \n",
" 4 | \n",
" L00000049012334 | \n",
" AS073285 | \n",
" 2018-04-01 | \n",
" 201804 | \n",
" 6 | \n",
"
\n",
" \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
"
\n",
" \n",
" 197423 | \n",
" L00000049209753 | \n",
" TS977703 | \n",
" 2019-03-31 | \n",
" 201903 | \n",
" 6 | \n",
"
\n",
" \n",
" 197424 | \n",
" L00000049209754 | \n",
" TS979550 | \n",
" 2019-03-31 | \n",
" 201903 | \n",
" 6 | \n",
"
\n",
" \n",
" 197425 | \n",
" L00000049209755 | \n",
" TS995299 | \n",
" 2019-03-31 | \n",
" 201903 | \n",
" 6 | \n",
"
\n",
" \n",
" 197426 | \n",
" L00000049209756 | \n",
" TS995853 | \n",
" 2019-03-31 | \n",
" 201903 | \n",
" 6 | \n",
"
\n",
" \n",
" 197427 | \n",
" L00000049209757 | \n",
" TS999079 | \n",
" 2019-03-31 | \n",
" 201903 | \n",
" 6 | \n",
"
\n",
" \n",
"
\n",
"
197428 rows × 5 columns
\n",
"
"
],
"text/plain": [
" log userid date month wday\n",
"0 L00000049012330 AS009373 2018-04-01 201804 6\n",
"1 L00000049012331 AS015315 2018-04-01 201804 6\n",
"2 L00000049012332 AS040841 2018-04-01 201804 6\n",
"3 L00000049012333 AS046594 2018-04-01 201804 6\n",
"4 L00000049012334 AS073285 2018-04-01 201804 6\n",
"... ... ... ... ... ...\n",
"197423 L00000049209753 TS977703 2019-03-31 201903 6\n",
"197424 L00000049209754 TS979550 2019-03-31 201903 6\n",
"197425 L00000049209755 TS995299 2019-03-31 201903 6\n",
"197426 L00000049209756 TS995853 2019-03-31 201903 6\n",
"197427 L00000049209757 TS999079 2019-03-31 201903 6\n",
"\n",
"[197428 rows x 5 columns]"
]
},
"execution_count": 40,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# 코드를 입력해 주세요\n",
"# df_logs 데이터 프레임을 이용하여 요일(weekday) 정보를 추출하세요\n",
"df_logs[\"wday\"] = df_logs[\"date\"].dt.weekday\n",
"df_logs"
]
},
{
"cell_type": "code",
"execution_count": 41,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"\n",
"\n",
"
\n",
" \n",
" \n",
" | \n",
" | \n",
" | \n",
" count | \n",
"
\n",
" \n",
" userid | \n",
" month | \n",
" wday | \n",
" | \n",
"
\n",
" \n",
" \n",
" \n",
" AS002855 | \n",
" 201804 | \n",
" 5 | \n",
" 4 | \n",
"
\n",
" \n",
" 201805 | \n",
" 2 | \n",
" 1 | \n",
"
\n",
" \n",
" 5 | \n",
" 4 | \n",
"
\n",
" \n",
" 201806 | \n",
" 5 | \n",
" 5 | \n",
"
\n",
" \n",
" 201807 | \n",
" 1 | \n",
" 1 | \n",
"
\n",
" \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
"
\n",
" \n",
" TS999855 | \n",
" 201901 | \n",
" 1 | \n",
" 1 | \n",
"
\n",
" \n",
" 5 | \n",
" 4 | \n",
"
\n",
" \n",
" 6 | \n",
" 1 | \n",
"
\n",
" \n",
" 201902 | \n",
" 5 | \n",
" 4 | \n",
"
\n",
" \n",
" 201903 | \n",
" 5 | \n",
" 4 | \n",
"
\n",
" \n",
"
\n",
"
93333 rows × 1 columns
\n",
"
"
],
"text/plain": [
" count\n",
"userid month wday \n",
"AS002855 201804 5 4\n",
" 201805 2 1\n",
" 5 4\n",
" 201806 5 5\n",
" 201807 1 1\n",
"... ...\n",
"TS999855 201901 1 1\n",
" 5 4\n",
" 6 1\n",
" 201902 5 4\n",
" 201903 5 4\n",
"\n",
"[93333 rows x 1 columns]"
]
},
"execution_count": 41,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# 코드를 입력해 주세요\n",
"# df_logs 데이터 프레임의 userid, month, wday 컬럼을 그룹으로 log 컬럼의 개수를 카운트하세요.\n",
"df_logs_weekly = df_logs.groupby(['userid','month','wday'])['log'].agg(['count'])\n",
"df_logs_weekly"
]
},
{
"cell_type": "code",
"execution_count": 42,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"\n",
"\n",
"
\n",
" \n",
" \n",
" | \n",
" userid | \n",
" month | \n",
" wday | \n",
" count | \n",
"
\n",
" \n",
" \n",
" \n",
" 0 | \n",
" AS002855 | \n",
" 201804 | \n",
" 5 | \n",
" 4 | \n",
"
\n",
" \n",
" 1 | \n",
" AS002855 | \n",
" 201805 | \n",
" 2 | \n",
" 1 | \n",
"
\n",
" \n",
" 2 | \n",
" AS002855 | \n",
" 201805 | \n",
" 5 | \n",
" 4 | \n",
"
\n",
" \n",
" 3 | \n",
" AS002855 | \n",
" 201806 | \n",
" 5 | \n",
" 5 | \n",
"
\n",
" \n",
" 4 | \n",
" AS002855 | \n",
" 201807 | \n",
" 1 | \n",
" 1 | \n",
"
\n",
" \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
"
\n",
" \n",
" 93328 | \n",
" TS999855 | \n",
" 201901 | \n",
" 1 | \n",
" 1 | \n",
"
\n",
" \n",
" 93329 | \n",
" TS999855 | \n",
" 201901 | \n",
" 5 | \n",
" 4 | \n",
"
\n",
" \n",
" 93330 | \n",
" TS999855 | \n",
" 201901 | \n",
" 6 | \n",
" 1 | \n",
"
\n",
" \n",
" 93331 | \n",
" TS999855 | \n",
" 201902 | \n",
" 5 | \n",
" 4 | \n",
"
\n",
" \n",
" 93332 | \n",
" TS999855 | \n",
" 201903 | \n",
" 5 | \n",
" 4 | \n",
"
\n",
" \n",
"
\n",
"
93333 rows × 4 columns
\n",
"
"
],
"text/plain": [
" userid month wday count\n",
"0 AS002855 201804 5 4\n",
"1 AS002855 201805 2 1\n",
"2 AS002855 201805 5 4\n",
"3 AS002855 201806 5 5\n",
"4 AS002855 201807 1 1\n",
"... ... ... ... ...\n",
"93328 TS999855 201901 1 1\n",
"93329 TS999855 201901 5 4\n",
"93330 TS999855 201901 6 1\n",
"93331 TS999855 201902 5 4\n",
"93332 TS999855 201903 5 4\n",
"\n",
"[93333 rows x 4 columns]"
]
},
"execution_count": 42,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# 코드를 입력해 주세요\n",
"# df_logs_weekly의 인덱스를 초기화 하세요.\n",
"df_logs_weekly.reset_index(inplace=True)\n",
"df_logs_weekly"
]
},
{
"cell_type": "code",
"execution_count": 43,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"\n",
"\n",
"
\n",
" \n",
" \n",
" | \n",
" month | \n",
" wday | \n",
" count | \n",
"
\n",
" \n",
" userid | \n",
" | \n",
" | \n",
" | \n",
"
\n",
" \n",
" \n",
" \n",
" AS002855 | \n",
" 201903 | \n",
" 6 | \n",
" 5 | \n",
"
\n",
" \n",
" AS008805 | \n",
" 201903 | \n",
" 6 | \n",
" 4 | \n",
"
\n",
" \n",
" AS009013 | \n",
" 201804 | \n",
" 0 | \n",
" 2 | \n",
"
\n",
" \n",
" AS009373 | \n",
" 201903 | \n",
" 6 | \n",
" 5 | \n",
"
\n",
" \n",
" AS015233 | \n",
" 201903 | \n",
" 6 | \n",
" 5 | \n",
"
\n",
" \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
"
\n",
" \n",
" TS995853 | \n",
" 201903 | \n",
" 6 | \n",
" 5 | \n",
"
\n",
" \n",
" TS998593 | \n",
" 201903 | \n",
" 6 | \n",
" 5 | \n",
"
\n",
" \n",
" TS999079 | \n",
" 201903 | \n",
" 6 | \n",
" 5 | \n",
"
\n",
" \n",
" TS999231 | \n",
" 201903 | \n",
" 6 | \n",
" 5 | \n",
"
\n",
" \n",
" TS999855 | \n",
" 201903 | \n",
" 6 | \n",
" 5 | \n",
"
\n",
" \n",
"
\n",
"
4192 rows × 3 columns
\n",
"
"
],
"text/plain": [
" month wday count\n",
"userid \n",
"AS002855 201903 6 5\n",
"AS008805 201903 6 4\n",
"AS009013 201804 0 2\n",
"AS009373 201903 6 5\n",
"AS015233 201903 6 5\n",
"... ... ... ...\n",
"TS995853 201903 6 5\n",
"TS998593 201903 6 5\n",
"TS999079 201903 6 5\n",
"TS999231 201903 6 5\n",
"TS999855 201903 6 5\n",
"\n",
"[4192 rows x 3 columns]"
]
},
"execution_count": 43,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# 코드를 입력해 주세요\n",
"# 매주 방문하는 사람을 찾기 위해 df_logs_weekly 데이터 프레임의 userid 컬럼을 그룹으로 최대값을 계산하세요\n",
"df_logs_weekly_routine = df_logs_weekly.groupby('userid').max()\n",
"df_logs_weekly_routine"
]
},
{
"cell_type": "code",
"execution_count": 44,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"\n",
"\n",
"
\n",
" \n",
" \n",
" | \n",
" month | \n",
" wday | \n",
" count | \n",
" routine | \n",
"
\n",
" \n",
" userid | \n",
" | \n",
" | \n",
" | \n",
" | \n",
"
\n",
" \n",
" \n",
" \n",
" AS002855 | \n",
" 201903 | \n",
" 6 | \n",
" 5 | \n",
" 0 | \n",
"
\n",
" \n",
" AS008805 | \n",
" 201903 | \n",
" 6 | \n",
" 4 | \n",
" 0 | \n",
"
\n",
" \n",
" AS009013 | \n",
" 201804 | \n",
" 0 | \n",
" 2 | \n",
" 0 | \n",
"
\n",
" \n",
" AS009373 | \n",
" 201903 | \n",
" 6 | \n",
" 5 | \n",
" 0 | \n",
"
\n",
" \n",
" AS015233 | \n",
" 201903 | \n",
" 6 | \n",
" 5 | \n",
" 0 | \n",
"
\n",
" \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
"
\n",
" \n",
" TS995853 | \n",
" 201903 | \n",
" 6 | \n",
" 5 | \n",
" 0 | \n",
"
\n",
" \n",
" TS998593 | \n",
" 201903 | \n",
" 6 | \n",
" 5 | \n",
" 0 | \n",
"
\n",
" \n",
" TS999079 | \n",
" 201903 | \n",
" 6 | \n",
" 5 | \n",
" 0 | \n",
"
\n",
" \n",
" TS999231 | \n",
" 201903 | \n",
" 6 | \n",
" 5 | \n",
" 0 | \n",
"
\n",
" \n",
" TS999855 | \n",
" 201903 | \n",
" 6 | \n",
" 5 | \n",
" 0 | \n",
"
\n",
" \n",
"
\n",
"
4192 rows × 4 columns
\n",
"
"
],
"text/plain": [
" month wday count routine\n",
"userid \n",
"AS002855 201903 6 5 0\n",
"AS008805 201903 6 4 0\n",
"AS009013 201804 0 2 0\n",
"AS009373 201903 6 5 0\n",
"AS015233 201903 6 5 0\n",
"... ... ... ... ...\n",
"TS995853 201903 6 5 0\n",
"TS998593 201903 6 5 0\n",
"TS999079 201903 6 5 0\n",
"TS999231 201903 6 5 0\n",
"TS999855 201903 6 5 0\n",
"\n",
"[4192 rows x 4 columns]"
]
},
"execution_count": 44,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# 코드를 입력해 주세요\n",
"# df_logs_weekly_routine 데이터 프레임에 0의 값을 가지는 routine 컬럼을 추가하세요.\n",
"df_logs_weekly_routine['routine'] = 0\n",
"df_logs_weekly_routine"
]
},
{
"cell_type": "code",
"execution_count": 45,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"\n",
"\n",
"
\n",
" \n",
" \n",
" | \n",
" month | \n",
" wday | \n",
" count | \n",
" routine | \n",
"
\n",
" \n",
" userid | \n",
" | \n",
" | \n",
" | \n",
" | \n",
"
\n",
" \n",
" \n",
" \n",
" AS002855 | \n",
" 201903 | \n",
" 6 | \n",
" 5 | \n",
" 1 | \n",
"
\n",
" \n",
" AS008805 | \n",
" 201903 | \n",
" 6 | \n",
" 4 | \n",
" 1 | \n",
"
\n",
" \n",
" AS009013 | \n",
" 201804 | \n",
" 0 | \n",
" 2 | \n",
" 0 | \n",
"
\n",
" \n",
" AS009373 | \n",
" 201903 | \n",
" 6 | \n",
" 5 | \n",
" 1 | \n",
"
\n",
" \n",
" AS015233 | \n",
" 201903 | \n",
" 6 | \n",
" 5 | \n",
" 1 | \n",
"
\n",
" \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
"
\n",
" \n",
" TS995853 | \n",
" 201903 | \n",
" 6 | \n",
" 5 | \n",
" 1 | \n",
"
\n",
" \n",
" TS998593 | \n",
" 201903 | \n",
" 6 | \n",
" 5 | \n",
" 1 | \n",
"
\n",
" \n",
" TS999079 | \n",
" 201903 | \n",
" 6 | \n",
" 5 | \n",
" 1 | \n",
"
\n",
" \n",
" TS999231 | \n",
" 201903 | \n",
" 6 | \n",
" 5 | \n",
" 1 | \n",
"
\n",
" \n",
" TS999855 | \n",
" 201903 | \n",
" 6 | \n",
" 5 | \n",
" 1 | \n",
"
\n",
" \n",
"
\n",
"
4192 rows × 4 columns
\n",
"
"
],
"text/plain": [
" month wday count routine\n",
"userid \n",
"AS002855 201903 6 5 1\n",
"AS008805 201903 6 4 1\n",
"AS009013 201804 0 2 0\n",
"AS009373 201903 6 5 1\n",
"AS015233 201903 6 5 1\n",
"... ... ... ... ...\n",
"TS995853 201903 6 5 1\n",
"TS998593 201903 6 5 1\n",
"TS999079 201903 6 5 1\n",
"TS999231 201903 6 5 1\n",
"TS999855 201903 6 5 1\n",
"\n",
"[4192 rows x 4 columns]"
]
},
"execution_count": 45,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# 코드를 입력해 주세요\n",
"# count 컬럼의 값이 4 이상인 경우 routine 컬럼의 값을 1로 변경하세요\n",
"df_logs_weekly_routine.loc[df_logs_weekly_routine['count'] >= 4, 'routine'] = 1\n",
"df_logs_weekly_routine"
]
},
{
"cell_type": "code",
"execution_count": 46,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"\n",
"\n",
"
\n",
" \n",
" \n",
" | \n",
" userid | \n",
" routine | \n",
"
\n",
" \n",
" \n",
" \n",
" 0 | \n",
" AS002855 | \n",
" 1 | \n",
"
\n",
" \n",
" 1 | \n",
" AS008805 | \n",
" 1 | \n",
"
\n",
" \n",
" 2 | \n",
" AS009013 | \n",
" 0 | \n",
"
\n",
" \n",
" 3 | \n",
" AS009373 | \n",
" 1 | \n",
"
\n",
" \n",
" 4 | \n",
" AS015233 | \n",
" 1 | \n",
"
\n",
" \n",
" ... | \n",
" ... | \n",
" ... | \n",
"
\n",
" \n",
" 4187 | \n",
" TS995853 | \n",
" 1 | \n",
"
\n",
" \n",
" 4188 | \n",
" TS998593 | \n",
" 1 | \n",
"
\n",
" \n",
" 4189 | \n",
" TS999079 | \n",
" 1 | \n",
"
\n",
" \n",
" 4190 | \n",
" TS999231 | \n",
" 1 | \n",
"
\n",
" \n",
" 4191 | \n",
" TS999855 | \n",
" 1 | \n",
"
\n",
" \n",
"
\n",
"
4192 rows × 2 columns
\n",
"
"
],
"text/plain": [
" userid routine\n",
"0 AS002855 1\n",
"1 AS008805 1\n",
"2 AS009013 0\n",
"3 AS009373 1\n",
"4 AS015233 1\n",
"... ... ...\n",
"4187 TS995853 1\n",
"4188 TS998593 1\n",
"4189 TS999079 1\n",
"4190 TS999231 1\n",
"4191 TS999855 1\n",
"\n",
"[4192 rows x 2 columns]"
]
},
"execution_count": 46,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# 코드를 입력해 주세요\n",
"# df_logs_weekly_routine 컬럼의 인덱스를 초기화하고 userid컬럼과 routine 컬럼만 추출하세요.\n",
"routine = df_logs_weekly_routine.reset_index()[['userid', 'routine']]\n",
"routine"
]
},
{
"cell_type": "code",
"execution_count": 47,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"\n",
"\n",
"
\n",
" \n",
" \n",
" | \n",
" userid | \n",
" class | \n",
" gender | \n",
" start_date | \n",
" end_date | \n",
" event_type | \n",
" is_deleted | \n",
" class_name | \n",
" price | \n",
" event_name | \n",
" ... | \n",
" start_month | \n",
" start_day | \n",
" end_year | \n",
" end_month | \n",
" end_day | \n",
" min | \n",
" median | \n",
" mean | \n",
" max | \n",
" sum | \n",
"
\n",
" \n",
" \n",
" \n",
" 0 | \n",
" OA832399 | \n",
" C01 | \n",
" F | \n",
" 2015-05-01 | \n",
" NaT | \n",
" CA1 | \n",
" 0 | \n",
" all | \n",
" 10000 | \n",
" None | \n",
" ... | \n",
" 5 | \n",
" 1 | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
" 2 | \n",
" 5.0 | \n",
" 4.833333 | \n",
" 8 | \n",
" 58 | \n",
"
\n",
" \n",
" 1 | \n",
" PL270116 | \n",
" C01 | \n",
" M | \n",
" 2015-05-01 | \n",
" NaT | \n",
" CA1 | \n",
" 0 | \n",
" all | \n",
" 10000 | \n",
" None | \n",
" ... | \n",
" 5 | \n",
" 1 | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
" 3 | \n",
" 5.0 | \n",
" 5.083333 | \n",
" 7 | \n",
" 61 | \n",
"
\n",
" \n",
" 2 | \n",
" OA974876 | \n",
" C01 | \n",
" M | \n",
" 2015-05-01 | \n",
" NaT | \n",
" CA1 | \n",
" 0 | \n",
" all | \n",
" 10000 | \n",
" None | \n",
" ... | \n",
" 5 | \n",
" 1 | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
" 3 | \n",
" 5.0 | \n",
" 4.583333 | \n",
" 6 | \n",
" 55 | \n",
"
\n",
" \n",
" 3 | \n",
" HD024127 | \n",
" C01 | \n",
" F | \n",
" 2015-05-01 | \n",
" NaT | \n",
" CA1 | \n",
" -1 | \n",
" all | \n",
" 10000 | \n",
" None | \n",
" ... | \n",
" 5 | \n",
" 1 | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
" 2 | \n",
" 4.5 | \n",
" 4.833333 | \n",
" 7 | \n",
" 58 | \n",
"
\n",
" \n",
" 4 | \n",
" IK271057 | \n",
" C01 | \n",
" M | \n",
" 2015-05-01 | \n",
" NaT | \n",
" CA1 | \n",
" 0 | \n",
" all | \n",
" 10000 | \n",
" None | \n",
" ... | \n",
" 5 | \n",
" 1 | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
" 2 | \n",
" 3.5 | \n",
" 3.750000 | \n",
" 5 | \n",
" 45 | \n",
"
\n",
" \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
"
\n",
" \n",
" 4187 | \n",
" IK562610 | \n",
" C02 | \n",
" F | \n",
" 2018-12-13 | \n",
" 2019-02-28 | \n",
" CA3 | \n",
" 1 | \n",
" day | \n",
" 7000 | \n",
" Free | \n",
" ... | \n",
" 12 | \n",
" 13 | \n",
" 2019.0 | \n",
" 2.0 | \n",
" 28.0 | \n",
" 3 | \n",
" 4.0 | \n",
" 5.666667 | \n",
" 10 | \n",
" 17 | \n",
"
\n",
" \n",
" 4188 | \n",
" HI599354 | \n",
" C02 | \n",
" M | \n",
" 2018-12-13 | \n",
" NaT | \n",
" CA3 | \n",
" 0 | \n",
" day | \n",
" 7000 | \n",
" Free | \n",
" ... | \n",
" 12 | \n",
" 13 | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
" 5 | \n",
" 7.5 | \n",
" 7.500000 | \n",
" 10 | \n",
" 30 | \n",
"
\n",
" \n",
" 4189 | \n",
" GD796859 | \n",
" C02 | \n",
" F | \n",
" 2018-12-14 | \n",
" NaT | \n",
" CA3 | \n",
" 0 | \n",
" day | \n",
" 7000 | \n",
" Free | \n",
" ... | \n",
" 12 | \n",
" 14 | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
" 6 | \n",
" 7.5 | \n",
" 7.250000 | \n",
" 8 | \n",
" 29 | \n",
"
\n",
" \n",
" 4190 | \n",
" GD082270 | \n",
" C02 | \n",
" F | \n",
" 2018-12-14 | \n",
" 2019-02-28 | \n",
" CA3 | \n",
" 1 | \n",
" day | \n",
" 7000 | \n",
" Free | \n",
" ... | \n",
" 12 | \n",
" 14 | \n",
" 2019.0 | \n",
" 2.0 | \n",
" 28.0 | \n",
" 3 | \n",
" 5.0 | \n",
" 6.000000 | \n",
" 10 | \n",
" 18 | \n",
"
\n",
" \n",
" 4191 | \n",
" OA426023 | \n",
" C02 | \n",
" F | \n",
" 2018-12-14 | \n",
" NaT | \n",
" CA3 | \n",
" 0 | \n",
" day | \n",
" 7000 | \n",
" Free | \n",
" ... | \n",
" 12 | \n",
" 14 | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
" 8 | \n",
" 9.0 | \n",
" 9.500000 | \n",
" 12 | \n",
" 38 | \n",
"
\n",
" \n",
"
\n",
"
4192 rows × 21 columns
\n",
"
"
],
"text/plain": [
" userid class gender start_date end_date event_type is_deleted \\\n",
"0 OA832399 C01 F 2015-05-01 NaT CA1 0 \n",
"1 PL270116 C01 M 2015-05-01 NaT CA1 0 \n",
"2 OA974876 C01 M 2015-05-01 NaT CA1 0 \n",
"3 HD024127 C01 F 2015-05-01 NaT CA1 -1 \n",
"4 IK271057 C01 M 2015-05-01 NaT CA1 0 \n",
"... ... ... ... ... ... ... ... \n",
"4187 IK562610 C02 F 2018-12-13 2019-02-28 CA3 1 \n",
"4188 HI599354 C02 M 2018-12-13 NaT CA3 0 \n",
"4189 GD796859 C02 F 2018-12-14 NaT CA3 0 \n",
"4190 GD082270 C02 F 2018-12-14 2019-02-28 CA3 1 \n",
"4191 OA426023 C02 F 2018-12-14 NaT CA3 0 \n",
"\n",
" class_name price event_name ... start_month start_day end_year \\\n",
"0 all 10000 None ... 5 1 NaN \n",
"1 all 10000 None ... 5 1 NaN \n",
"2 all 10000 None ... 5 1 NaN \n",
"3 all 10000 None ... 5 1 NaN \n",
"4 all 10000 None ... 5 1 NaN \n",
"... ... ... ... ... ... ... ... \n",
"4187 day 7000 Free ... 12 13 2019.0 \n",
"4188 day 7000 Free ... 12 13 NaN \n",
"4189 day 7000 Free ... 12 14 NaN \n",
"4190 day 7000 Free ... 12 14 2019.0 \n",
"4191 day 7000 Free ... 12 14 NaN \n",
"\n",
" end_month end_day min median mean max sum \n",
"0 NaN NaN 2 5.0 4.833333 8 58 \n",
"1 NaN NaN 3 5.0 5.083333 7 61 \n",
"2 NaN NaN 3 5.0 4.583333 6 55 \n",
"3 NaN NaN 2 4.5 4.833333 7 58 \n",
"4 NaN NaN 2 3.5 3.750000 5 45 \n",
"... ... ... ... ... ... ... ... \n",
"4187 2.0 28.0 3 4.0 5.666667 10 17 \n",
"4188 NaN NaN 5 7.5 7.500000 10 30 \n",
"4189 NaN NaN 6 7.5 7.250000 8 29 \n",
"4190 2.0 28.0 3 5.0 6.000000 10 18 \n",
"4191 NaN NaN 8 9.0 9.500000 12 38 \n",
"\n",
"[4192 rows x 21 columns]"
]
},
"execution_count": 47,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# 코드를 입력해 주세요\n",
"# user 데이터 프레임과 user_log 데이터 프레임을 userid를 기준으로 병합하세요\n",
"user = pd.merge(user, user_log, on='userid')\n",
"user"
]
},
{
"cell_type": "code",
"execution_count": 48,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"\n",
"\n",
"
\n",
" \n",
" \n",
" | \n",
" userid | \n",
" class | \n",
" gender | \n",
" start_date | \n",
" end_date | \n",
" event_type | \n",
" is_deleted | \n",
" class_name | \n",
" price | \n",
" event_name | \n",
" ... | \n",
" start_day | \n",
" end_year | \n",
" end_month | \n",
" end_day | \n",
" min | \n",
" median | \n",
" mean | \n",
" max | \n",
" sum | \n",
" routine | \n",
"
\n",
" \n",
" \n",
" \n",
" 0 | \n",
" OA832399 | \n",
" C01 | \n",
" F | \n",
" 2015-05-01 | \n",
" NaT | \n",
" CA1 | \n",
" 0 | \n",
" all | \n",
" 10000 | \n",
" None | \n",
" ... | \n",
" 1 | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
" 2 | \n",
" 5.0 | \n",
" 4.833333 | \n",
" 8 | \n",
" 58 | \n",
" 1 | \n",
"
\n",
" \n",
" 1 | \n",
" PL270116 | \n",
" C01 | \n",
" M | \n",
" 2015-05-01 | \n",
" NaT | \n",
" CA1 | \n",
" 0 | \n",
" all | \n",
" 10000 | \n",
" None | \n",
" ... | \n",
" 1 | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
" 3 | \n",
" 5.0 | \n",
" 5.083333 | \n",
" 7 | \n",
" 61 | \n",
" 1 | \n",
"
\n",
" \n",
" 2 | \n",
" OA974876 | \n",
" C01 | \n",
" M | \n",
" 2015-05-01 | \n",
" NaT | \n",
" CA1 | \n",
" 0 | \n",
" all | \n",
" 10000 | \n",
" None | \n",
" ... | \n",
" 1 | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
" 3 | \n",
" 5.0 | \n",
" 4.583333 | \n",
" 6 | \n",
" 55 | \n",
" 1 | \n",
"
\n",
" \n",
" 3 | \n",
" HD024127 | \n",
" C01 | \n",
" F | \n",
" 2015-05-01 | \n",
" NaT | \n",
" CA1 | \n",
" -1 | \n",
" all | \n",
" 10000 | \n",
" None | \n",
" ... | \n",
" 1 | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
" 2 | \n",
" 4.5 | \n",
" 4.833333 | \n",
" 7 | \n",
" 58 | \n",
" 1 | \n",
"
\n",
" \n",
" 4 | \n",
" IK271057 | \n",
" C01 | \n",
" M | \n",
" 2015-05-01 | \n",
" NaT | \n",
" CA1 | \n",
" 0 | \n",
" all | \n",
" 10000 | \n",
" None | \n",
" ... | \n",
" 1 | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
" 2 | \n",
" 3.5 | \n",
" 3.750000 | \n",
" 5 | \n",
" 45 | \n",
" 1 | \n",
"
\n",
" \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
"
\n",
" \n",
" 4187 | \n",
" IK562610 | \n",
" C02 | \n",
" F | \n",
" 2018-12-13 | \n",
" 2019-02-28 | \n",
" CA3 | \n",
" 1 | \n",
" day | \n",
" 7000 | \n",
" Free | \n",
" ... | \n",
" 13 | \n",
" 2019.0 | \n",
" 2.0 | \n",
" 28.0 | \n",
" 3 | \n",
" 4.0 | \n",
" 5.666667 | \n",
" 10 | \n",
" 17 | \n",
" 0 | \n",
"
\n",
" \n",
" 4188 | \n",
" HI599354 | \n",
" C02 | \n",
" M | \n",
" 2018-12-13 | \n",
" NaT | \n",
" CA3 | \n",
" 0 | \n",
" day | \n",
" 7000 | \n",
" Free | \n",
" ... | \n",
" 13 | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
" 5 | \n",
" 7.5 | \n",
" 7.500000 | \n",
" 10 | \n",
" 30 | \n",
" 1 | \n",
"
\n",
" \n",
" 4189 | \n",
" GD796859 | \n",
" C02 | \n",
" F | \n",
" 2018-12-14 | \n",
" NaT | \n",
" CA3 | \n",
" 0 | \n",
" day | \n",
" 7000 | \n",
" Free | \n",
" ... | \n",
" 14 | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
" 6 | \n",
" 7.5 | \n",
" 7.250000 | \n",
" 8 | \n",
" 29 | \n",
" 1 | \n",
"
\n",
" \n",
" 4190 | \n",
" GD082270 | \n",
" C02 | \n",
" F | \n",
" 2018-12-14 | \n",
" 2019-02-28 | \n",
" CA3 | \n",
" 1 | \n",
" day | \n",
" 7000 | \n",
" Free | \n",
" ... | \n",
" 14 | \n",
" 2019.0 | \n",
" 2.0 | \n",
" 28.0 | \n",
" 3 | \n",
" 5.0 | \n",
" 6.000000 | \n",
" 10 | \n",
" 18 | \n",
" 0 | \n",
"
\n",
" \n",
" 4191 | \n",
" OA426023 | \n",
" C02 | \n",
" F | \n",
" 2018-12-14 | \n",
" NaT | \n",
" CA3 | \n",
" 0 | \n",
" day | \n",
" 7000 | \n",
" Free | \n",
" ... | \n",
" 14 | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
" 8 | \n",
" 9.0 | \n",
" 9.500000 | \n",
" 12 | \n",
" 38 | \n",
" 1 | \n",
"
\n",
" \n",
"
\n",
"
4192 rows × 22 columns
\n",
"
"
],
"text/plain": [
" userid class gender start_date end_date event_type is_deleted \\\n",
"0 OA832399 C01 F 2015-05-01 NaT CA1 0 \n",
"1 PL270116 C01 M 2015-05-01 NaT CA1 0 \n",
"2 OA974876 C01 M 2015-05-01 NaT CA1 0 \n",
"3 HD024127 C01 F 2015-05-01 NaT CA1 -1 \n",
"4 IK271057 C01 M 2015-05-01 NaT CA1 0 \n",
"... ... ... ... ... ... ... ... \n",
"4187 IK562610 C02 F 2018-12-13 2019-02-28 CA3 1 \n",
"4188 HI599354 C02 M 2018-12-13 NaT CA3 0 \n",
"4189 GD796859 C02 F 2018-12-14 NaT CA3 0 \n",
"4190 GD082270 C02 F 2018-12-14 2019-02-28 CA3 1 \n",
"4191 OA426023 C02 F 2018-12-14 NaT CA3 0 \n",
"\n",
" class_name price event_name ... start_day end_year end_month \\\n",
"0 all 10000 None ... 1 NaN NaN \n",
"1 all 10000 None ... 1 NaN NaN \n",
"2 all 10000 None ... 1 NaN NaN \n",
"3 all 10000 None ... 1 NaN NaN \n",
"4 all 10000 None ... 1 NaN NaN \n",
"... ... ... ... ... ... ... ... \n",
"4187 day 7000 Free ... 13 2019.0 2.0 \n",
"4188 day 7000 Free ... 13 NaN NaN \n",
"4189 day 7000 Free ... 14 NaN NaN \n",
"4190 day 7000 Free ... 14 2019.0 2.0 \n",
"4191 day 7000 Free ... 14 NaN NaN \n",
"\n",
" end_day min median mean max sum routine \n",
"0 NaN 2 5.0 4.833333 8 58 1 \n",
"1 NaN 3 5.0 5.083333 7 61 1 \n",
"2 NaN 3 5.0 4.583333 6 55 1 \n",
"3 NaN 2 4.5 4.833333 7 58 1 \n",
"4 NaN 2 3.5 3.750000 5 45 1 \n",
"... ... ... ... ... ... ... ... \n",
"4187 28.0 3 4.0 5.666667 10 17 0 \n",
"4188 NaN 5 7.5 7.500000 10 30 1 \n",
"4189 NaN 6 7.5 7.250000 8 29 1 \n",
"4190 28.0 3 5.0 6.000000 10 18 0 \n",
"4191 NaN 8 9.0 9.500000 12 38 1 \n",
"\n",
"[4192 rows x 22 columns]"
]
},
"execution_count": 48,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# 코드를 입력해 주세요\n",
"# user 데이터 프레임과 routine 데이터 프레임을 userid를 기준으로 병합하세요\n",
"user = pd.merge(user, routine, on='userid')\n",
"user"
]
},
{
"cell_type": "code",
"execution_count": 49,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"\n",
"\n",
"
\n",
" \n",
" \n",
" | \n",
" userid | \n",
" class | \n",
" gender | \n",
" start_date | \n",
" end_date | \n",
" event_type | \n",
" is_deleted | \n",
" class_name | \n",
" price | \n",
" event_name | \n",
" ... | \n",
" end_year | \n",
" end_month | \n",
" end_day | \n",
" min | \n",
" median | \n",
" mean | \n",
" max | \n",
" sum | \n",
" routine | \n",
" period | \n",
"
\n",
" \n",
" \n",
" \n",
" 0 | \n",
" OA832399 | \n",
" C01 | \n",
" F | \n",
" 2015-05-01 | \n",
" NaT | \n",
" CA1 | \n",
" 0 | \n",
" all | \n",
" 10000 | \n",
" None | \n",
" ... | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
" 2 | \n",
" 5.0 | \n",
" 4.833333 | \n",
" 8 | \n",
" 58 | \n",
" 1 | \n",
" NaT | \n",
"
\n",
" \n",
" 1 | \n",
" PL270116 | \n",
" C01 | \n",
" M | \n",
" 2015-05-01 | \n",
" NaT | \n",
" CA1 | \n",
" 0 | \n",
" all | \n",
" 10000 | \n",
" None | \n",
" ... | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
" 3 | \n",
" 5.0 | \n",
" 5.083333 | \n",
" 7 | \n",
" 61 | \n",
" 1 | \n",
" NaT | \n",
"
\n",
" \n",
" 2 | \n",
" OA974876 | \n",
" C01 | \n",
" M | \n",
" 2015-05-01 | \n",
" NaT | \n",
" CA1 | \n",
" 0 | \n",
" all | \n",
" 10000 | \n",
" None | \n",
" ... | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
" 3 | \n",
" 5.0 | \n",
" 4.583333 | \n",
" 6 | \n",
" 55 | \n",
" 1 | \n",
" NaT | \n",
"
\n",
" \n",
" 3 | \n",
" HD024127 | \n",
" C01 | \n",
" F | \n",
" 2015-05-01 | \n",
" NaT | \n",
" CA1 | \n",
" -1 | \n",
" all | \n",
" 10000 | \n",
" None | \n",
" ... | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
" 2 | \n",
" 4.5 | \n",
" 4.833333 | \n",
" 7 | \n",
" 58 | \n",
" 1 | \n",
" NaT | \n",
"
\n",
" \n",
" 4 | \n",
" IK271057 | \n",
" C01 | \n",
" M | \n",
" 2015-05-01 | \n",
" NaT | \n",
" CA1 | \n",
" 0 | \n",
" all | \n",
" 10000 | \n",
" None | \n",
" ... | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
" 2 | \n",
" 3.5 | \n",
" 3.750000 | \n",
" 5 | \n",
" 45 | \n",
" 1 | \n",
" NaT | \n",
"
\n",
" \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
"
\n",
" \n",
" 4187 | \n",
" IK562610 | \n",
" C02 | \n",
" F | \n",
" 2018-12-13 | \n",
" 2019-02-28 | \n",
" CA3 | \n",
" 1 | \n",
" day | \n",
" 7000 | \n",
" Free | \n",
" ... | \n",
" 2019.0 | \n",
" 2.0 | \n",
" 28.0 | \n",
" 3 | \n",
" 4.0 | \n",
" 5.666667 | \n",
" 10 | \n",
" 17 | \n",
" 0 | \n",
" 77 days | \n",
"
\n",
" \n",
" 4188 | \n",
" HI599354 | \n",
" C02 | \n",
" M | \n",
" 2018-12-13 | \n",
" NaT | \n",
" CA3 | \n",
" 0 | \n",
" day | \n",
" 7000 | \n",
" Free | \n",
" ... | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
" 5 | \n",
" 7.5 | \n",
" 7.500000 | \n",
" 10 | \n",
" 30 | \n",
" 1 | \n",
" NaT | \n",
"
\n",
" \n",
" 4189 | \n",
" GD796859 | \n",
" C02 | \n",
" F | \n",
" 2018-12-14 | \n",
" NaT | \n",
" CA3 | \n",
" 0 | \n",
" day | \n",
" 7000 | \n",
" Free | \n",
" ... | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
" 6 | \n",
" 7.5 | \n",
" 7.250000 | \n",
" 8 | \n",
" 29 | \n",
" 1 | \n",
" NaT | \n",
"
\n",
" \n",
" 4190 | \n",
" GD082270 | \n",
" C02 | \n",
" F | \n",
" 2018-12-14 | \n",
" 2019-02-28 | \n",
" CA3 | \n",
" 1 | \n",
" day | \n",
" 7000 | \n",
" Free | \n",
" ... | \n",
" 2019.0 | \n",
" 2.0 | \n",
" 28.0 | \n",
" 3 | \n",
" 5.0 | \n",
" 6.000000 | \n",
" 10 | \n",
" 18 | \n",
" 0 | \n",
" 76 days | \n",
"
\n",
" \n",
" 4191 | \n",
" OA426023 | \n",
" C02 | \n",
" F | \n",
" 2018-12-14 | \n",
" NaT | \n",
" CA3 | \n",
" 0 | \n",
" day | \n",
" 7000 | \n",
" Free | \n",
" ... | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
" 8 | \n",
" 9.0 | \n",
" 9.500000 | \n",
" 12 | \n",
" 38 | \n",
" 1 | \n",
" NaT | \n",
"
\n",
" \n",
"
\n",
"
4192 rows × 23 columns
\n",
"
"
],
"text/plain": [
" userid class gender start_date end_date event_type is_deleted \\\n",
"0 OA832399 C01 F 2015-05-01 NaT CA1 0 \n",
"1 PL270116 C01 M 2015-05-01 NaT CA1 0 \n",
"2 OA974876 C01 M 2015-05-01 NaT CA1 0 \n",
"3 HD024127 C01 F 2015-05-01 NaT CA1 -1 \n",
"4 IK271057 C01 M 2015-05-01 NaT CA1 0 \n",
"... ... ... ... ... ... ... ... \n",
"4187 IK562610 C02 F 2018-12-13 2019-02-28 CA3 1 \n",
"4188 HI599354 C02 M 2018-12-13 NaT CA3 0 \n",
"4189 GD796859 C02 F 2018-12-14 NaT CA3 0 \n",
"4190 GD082270 C02 F 2018-12-14 2019-02-28 CA3 1 \n",
"4191 OA426023 C02 F 2018-12-14 NaT CA3 0 \n",
"\n",
" class_name price event_name ... end_year end_month end_day min \\\n",
"0 all 10000 None ... NaN NaN NaN 2 \n",
"1 all 10000 None ... NaN NaN NaN 3 \n",
"2 all 10000 None ... NaN NaN NaN 3 \n",
"3 all 10000 None ... NaN NaN NaN 2 \n",
"4 all 10000 None ... NaN NaN NaN 2 \n",
"... ... ... ... ... ... ... ... ... \n",
"4187 day 7000 Free ... 2019.0 2.0 28.0 3 \n",
"4188 day 7000 Free ... NaN NaN NaN 5 \n",
"4189 day 7000 Free ... NaN NaN NaN 6 \n",
"4190 day 7000 Free ... 2019.0 2.0 28.0 3 \n",
"4191 day 7000 Free ... NaN NaN NaN 8 \n",
"\n",
" median mean max sum routine period \n",
"0 5.0 4.833333 8 58 1 NaT \n",
"1 5.0 5.083333 7 61 1 NaT \n",
"2 5.0 4.583333 6 55 1 NaT \n",
"3 4.5 4.833333 7 58 1 NaT \n",
"4 3.5 3.750000 5 45 1 NaT \n",
"... ... ... ... ... ... ... \n",
"4187 4.0 5.666667 10 17 0 77 days \n",
"4188 7.5 7.500000 10 30 1 NaT \n",
"4189 7.5 7.250000 8 29 1 NaT \n",
"4190 5.0 6.000000 10 18 0 76 days \n",
"4191 9.0 9.500000 12 38 1 NaT \n",
"\n",
"[4192 rows x 23 columns]"
]
},
"execution_count": 49,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# 코드를 입력해 주세요\n",
"# end_date 컬럼와 start_date 컬럼의 차이를 이용하여 회원 기간을 계산하세요\n",
"user['period'] = user['end_date'] - user['start_date']\n",
"user"
]
},
{
"cell_type": "code",
"execution_count": 50,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"\n",
"\n",
"
\n",
" \n",
" \n",
" | \n",
" userid | \n",
" class | \n",
" gender | \n",
" start_date | \n",
" end_date | \n",
" event_type | \n",
" is_deleted | \n",
" class_name | \n",
" price | \n",
" event_name | \n",
" ... | \n",
" end_year | \n",
" end_month | \n",
" end_day | \n",
" min | \n",
" median | \n",
" mean | \n",
" max | \n",
" sum | \n",
" routine | \n",
" period | \n",
"
\n",
" \n",
" \n",
" \n",
" 0 | \n",
" OA832399 | \n",
" C01 | \n",
" F | \n",
" 2015-05-01 | \n",
" NaT | \n",
" CA1 | \n",
" 0 | \n",
" all | \n",
" 10000 | \n",
" None | \n",
" ... | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
" 2 | \n",
" 5.0 | \n",
" 4.833333 | \n",
" 8 | \n",
" 58 | \n",
" 1 | \n",
" 1460 days | \n",
"
\n",
" \n",
" 1 | \n",
" PL270116 | \n",
" C01 | \n",
" M | \n",
" 2015-05-01 | \n",
" NaT | \n",
" CA1 | \n",
" 0 | \n",
" all | \n",
" 10000 | \n",
" None | \n",
" ... | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
" 3 | \n",
" 5.0 | \n",
" 5.083333 | \n",
" 7 | \n",
" 61 | \n",
" 1 | \n",
" 1460 days | \n",
"
\n",
" \n",
" 2 | \n",
" OA974876 | \n",
" C01 | \n",
" M | \n",
" 2015-05-01 | \n",
" NaT | \n",
" CA1 | \n",
" 0 | \n",
" all | \n",
" 10000 | \n",
" None | \n",
" ... | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
" 3 | \n",
" 5.0 | \n",
" 4.583333 | \n",
" 6 | \n",
" 55 | \n",
" 1 | \n",
" 1460 days | \n",
"
\n",
" \n",
" 3 | \n",
" HD024127 | \n",
" C01 | \n",
" F | \n",
" 2015-05-01 | \n",
" NaT | \n",
" CA1 | \n",
" -1 | \n",
" all | \n",
" 10000 | \n",
" None | \n",
" ... | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
" 2 | \n",
" 4.5 | \n",
" 4.833333 | \n",
" 7 | \n",
" 58 | \n",
" 1 | \n",
" 1460 days | \n",
"
\n",
" \n",
" 4 | \n",
" IK271057 | \n",
" C01 | \n",
" M | \n",
" 2015-05-01 | \n",
" NaT | \n",
" CA1 | \n",
" 0 | \n",
" all | \n",
" 10000 | \n",
" None | \n",
" ... | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
" 2 | \n",
" 3.5 | \n",
" 3.750000 | \n",
" 5 | \n",
" 45 | \n",
" 1 | \n",
" 1460 days | \n",
"
\n",
" \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
"
\n",
" \n",
" 4187 | \n",
" IK562610 | \n",
" C02 | \n",
" F | \n",
" 2018-12-13 | \n",
" 2019-02-28 | \n",
" CA3 | \n",
" 1 | \n",
" day | \n",
" 7000 | \n",
" Free | \n",
" ... | \n",
" 2019.0 | \n",
" 2.0 | \n",
" 28.0 | \n",
" 3 | \n",
" 4.0 | \n",
" 5.666667 | \n",
" 10 | \n",
" 17 | \n",
" 0 | \n",
" 77 days | \n",
"
\n",
" \n",
" 4188 | \n",
" HI599354 | \n",
" C02 | \n",
" M | \n",
" 2018-12-13 | \n",
" NaT | \n",
" CA3 | \n",
" 0 | \n",
" day | \n",
" 7000 | \n",
" Free | \n",
" ... | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
" 5 | \n",
" 7.5 | \n",
" 7.500000 | \n",
" 10 | \n",
" 30 | \n",
" 1 | \n",
" 138 days | \n",
"
\n",
" \n",
" 4189 | \n",
" GD796859 | \n",
" C02 | \n",
" F | \n",
" 2018-12-14 | \n",
" NaT | \n",
" CA3 | \n",
" 0 | \n",
" day | \n",
" 7000 | \n",
" Free | \n",
" ... | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
" 6 | \n",
" 7.5 | \n",
" 7.250000 | \n",
" 8 | \n",
" 29 | \n",
" 1 | \n",
" 137 days | \n",
"
\n",
" \n",
" 4190 | \n",
" GD082270 | \n",
" C02 | \n",
" F | \n",
" 2018-12-14 | \n",
" 2019-02-28 | \n",
" CA3 | \n",
" 1 | \n",
" day | \n",
" 7000 | \n",
" Free | \n",
" ... | \n",
" 2019.0 | \n",
" 2.0 | \n",
" 28.0 | \n",
" 3 | \n",
" 5.0 | \n",
" 6.000000 | \n",
" 10 | \n",
" 18 | \n",
" 0 | \n",
" 76 days | \n",
"
\n",
" \n",
" 4191 | \n",
" OA426023 | \n",
" C02 | \n",
" F | \n",
" 2018-12-14 | \n",
" NaT | \n",
" CA3 | \n",
" 0 | \n",
" day | \n",
" 7000 | \n",
" Free | \n",
" ... | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
" 8 | \n",
" 9.0 | \n",
" 9.500000 | \n",
" 12 | \n",
" 38 | \n",
" 1 | \n",
" 137 days | \n",
"
\n",
" \n",
"
\n",
"
4192 rows × 23 columns
\n",
"
"
],
"text/plain": [
" userid class gender start_date end_date event_type is_deleted \\\n",
"0 OA832399 C01 F 2015-05-01 NaT CA1 0 \n",
"1 PL270116 C01 M 2015-05-01 NaT CA1 0 \n",
"2 OA974876 C01 M 2015-05-01 NaT CA1 0 \n",
"3 HD024127 C01 F 2015-05-01 NaT CA1 -1 \n",
"4 IK271057 C01 M 2015-05-01 NaT CA1 0 \n",
"... ... ... ... ... ... ... ... \n",
"4187 IK562610 C02 F 2018-12-13 2019-02-28 CA3 1 \n",
"4188 HI599354 C02 M 2018-12-13 NaT CA3 0 \n",
"4189 GD796859 C02 F 2018-12-14 NaT CA3 0 \n",
"4190 GD082270 C02 F 2018-12-14 2019-02-28 CA3 1 \n",
"4191 OA426023 C02 F 2018-12-14 NaT CA3 0 \n",
"\n",
" class_name price event_name ... end_year end_month end_day min \\\n",
"0 all 10000 None ... NaN NaN NaN 2 \n",
"1 all 10000 None ... NaN NaN NaN 3 \n",
"2 all 10000 None ... NaN NaN NaN 3 \n",
"3 all 10000 None ... NaN NaN NaN 2 \n",
"4 all 10000 None ... NaN NaN NaN 2 \n",
"... ... ... ... ... ... ... ... ... \n",
"4187 day 7000 Free ... 2019.0 2.0 28.0 3 \n",
"4188 day 7000 Free ... NaN NaN NaN 5 \n",
"4189 day 7000 Free ... NaN NaN NaN 6 \n",
"4190 day 7000 Free ... 2019.0 2.0 28.0 3 \n",
"4191 day 7000 Free ... NaN NaN NaN 8 \n",
"\n",
" median mean max sum routine period \n",
"0 5.0 4.833333 8 58 1 1460 days \n",
"1 5.0 5.083333 7 61 1 1460 days \n",
"2 5.0 4.583333 6 55 1 1460 days \n",
"3 4.5 4.833333 7 58 1 1460 days \n",
"4 3.5 3.750000 5 45 1 1460 days \n",
"... ... ... ... ... ... ... \n",
"4187 4.0 5.666667 10 17 0 77 days \n",
"4188 7.5 7.500000 10 30 1 138 days \n",
"4189 7.5 7.250000 8 29 1 137 days \n",
"4190 5.0 6.000000 10 18 0 76 days \n",
"4191 9.0 9.500000 12 38 1 137 days \n",
"\n",
"[4192 rows x 23 columns]"
]
},
"execution_count": 50,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# 코드를 입력해 주세요\n",
"# period 컬럼이 NaT인 경우 아직 탈퇴하지않은 회원으로 2019년04월30일을 기준으로 차이를 계산합니다.\n",
"user.loc[user['period'].isna(), 'period'] = pd.to_datetime(\"20190430\") - user['start_date']\n",
"user"
]
},
{
"cell_type": "code",
"execution_count": 51,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"\n",
"\n",
"
\n",
" \n",
" \n",
" | \n",
" min | \n",
" median | \n",
" mean | \n",
" max | \n",
" sum | \n",
"
\n",
" \n",
" \n",
" \n",
" count | \n",
" 4192.000000 | \n",
" 4192.000000 | \n",
" 4192.000000 | \n",
" 4192.000000 | \n",
" 4192.000000 | \n",
"
\n",
" \n",
" mean | \n",
" 3.041269 | \n",
" 5.250596 | \n",
" 5.333127 | \n",
" 7.823950 | \n",
" 47.096374 | \n",
"
\n",
" \n",
" std | \n",
" 1.951565 | \n",
" 1.874874 | \n",
" 1.777533 | \n",
" 2.168959 | \n",
" 24.218124 | \n",
"
\n",
" \n",
" min | \n",
" 1.000000 | \n",
" 1.000000 | \n",
" 1.000000 | \n",
" 1.000000 | \n",
" 1.000000 | \n",
"
\n",
" \n",
" 25% | \n",
" 2.000000 | \n",
" 4.000000 | \n",
" 4.250000 | \n",
" 7.000000 | \n",
" 26.000000 | \n",
"
\n",
" \n",
" 50% | \n",
" 3.000000 | \n",
" 5.000000 | \n",
" 5.000000 | \n",
" 8.000000 | \n",
" 53.000000 | \n",
"
\n",
" \n",
" 75% | \n",
" 4.000000 | \n",
" 6.500000 | \n",
" 6.416667 | \n",
" 9.000000 | \n",
" 65.000000 | \n",
"
\n",
" \n",
" max | \n",
" 12.000000 | \n",
" 12.000000 | \n",
" 12.000000 | \n",
" 14.000000 | \n",
" 105.000000 | \n",
"
\n",
" \n",
"
\n",
"
"
],
"text/plain": [
" min median mean max sum\n",
"count 4192.000000 4192.000000 4192.000000 4192.000000 4192.000000\n",
"mean 3.041269 5.250596 5.333127 7.823950 47.096374\n",
"std 1.951565 1.874874 1.777533 2.168959 24.218124\n",
"min 1.000000 1.000000 1.000000 1.000000 1.000000\n",
"25% 2.000000 4.000000 4.250000 7.000000 26.000000\n",
"50% 3.000000 5.000000 5.000000 8.000000 53.000000\n",
"75% 4.000000 6.500000 6.416667 9.000000 65.000000\n",
"max 12.000000 12.000000 12.000000 14.000000 105.000000"
]
},
"execution_count": 51,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# 코드를 입력해 주세요\n",
"# user 데이터 프레임의 min, median, mean, max, sum 컬럼의 기술통계요약정보를 출력하세요.\n",
"user[['min', 'median', 'mean', 'max', 'sum']].describe()"
]
},
{
"cell_type": "code",
"execution_count": 52,
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"1 3413\n",
"0 779\n",
"Name: routine, dtype: int64"
]
},
"execution_count": 52,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# 코드를 입력해 주세요\n",
"# user 데이터 프레임의 routine 컬럼의 고유값별 개수를 계산하세요\n",
"user['routine'].value_counts()"
]
},
{
"cell_type": "code",
"execution_count": 53,
"metadata": {},
"outputs": [
{
"data": {
"image/png": "\n",
"text/plain": [
""
]
},
"metadata": {
"needs_background": "light"
},
"output_type": "display_data"
}
],
"source": [
"# 코드를 입력해 주세요\n",
"# user 데이터 프레임의 period_day 컬럼의 histogram을 그려보세요.\n",
"user['period_day'] = user['period'].dt.days\n",
"user['period_day'].hist()\n",
"plt.show()"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"# ML (Classification)"
]
},
{
"cell_type": "code",
"execution_count": 54,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"\n",
"\n",
"
\n",
" \n",
" \n",
" | \n",
" userid | \n",
" class | \n",
" gender | \n",
" start_date | \n",
" end_date | \n",
" event_type | \n",
" is_deleted | \n",
" class_name | \n",
" price | \n",
" event_name | \n",
" ... | \n",
" end_month | \n",
" end_day | \n",
" min | \n",
" median | \n",
" mean | \n",
" max | \n",
" sum | \n",
" routine | \n",
" period | \n",
" period_day | \n",
"
\n",
" \n",
" \n",
" \n",
" 0 | \n",
" OA832399 | \n",
" C01 | \n",
" F | \n",
" 2015-05-01 | \n",
" NaT | \n",
" CA1 | \n",
" 0 | \n",
" all | \n",
" 10000 | \n",
" None | \n",
" ... | \n",
" NaN | \n",
" NaN | \n",
" 2 | \n",
" 5.0 | \n",
" 4.833333 | \n",
" 8 | \n",
" 58 | \n",
" 1 | \n",
" 1460 days | \n",
" 1460 | \n",
"
\n",
" \n",
" 1 | \n",
" PL270116 | \n",
" C01 | \n",
" M | \n",
" 2015-05-01 | \n",
" NaT | \n",
" CA1 | \n",
" 0 | \n",
" all | \n",
" 10000 | \n",
" None | \n",
" ... | \n",
" NaN | \n",
" NaN | \n",
" 3 | \n",
" 5.0 | \n",
" 5.083333 | \n",
" 7 | \n",
" 61 | \n",
" 1 | \n",
" 1460 days | \n",
" 1460 | \n",
"
\n",
" \n",
" 2 | \n",
" OA974876 | \n",
" C01 | \n",
" M | \n",
" 2015-05-01 | \n",
" NaT | \n",
" CA1 | \n",
" 0 | \n",
" all | \n",
" 10000 | \n",
" None | \n",
" ... | \n",
" NaN | \n",
" NaN | \n",
" 3 | \n",
" 5.0 | \n",
" 4.583333 | \n",
" 6 | \n",
" 55 | \n",
" 1 | \n",
" 1460 days | \n",
" 1460 | \n",
"
\n",
" \n",
" 3 | \n",
" HD024127 | \n",
" C01 | \n",
" F | \n",
" 2015-05-01 | \n",
" NaT | \n",
" CA1 | \n",
" -1 | \n",
" all | \n",
" 10000 | \n",
" None | \n",
" ... | \n",
" NaN | \n",
" NaN | \n",
" 2 | \n",
" 4.5 | \n",
" 4.833333 | \n",
" 7 | \n",
" 58 | \n",
" 1 | \n",
" 1460 days | \n",
" 1460 | \n",
"
\n",
" \n",
" 4 | \n",
" IK271057 | \n",
" C01 | \n",
" M | \n",
" 2015-05-01 | \n",
" NaT | \n",
" CA1 | \n",
" 0 | \n",
" all | \n",
" 10000 | \n",
" None | \n",
" ... | \n",
" NaN | \n",
" NaN | \n",
" 2 | \n",
" 3.5 | \n",
" 3.750000 | \n",
" 5 | \n",
" 45 | \n",
" 1 | \n",
" 1460 days | \n",
" 1460 | \n",
"
\n",
" \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
"
\n",
" \n",
" 4187 | \n",
" IK562610 | \n",
" C02 | \n",
" F | \n",
" 2018-12-13 | \n",
" 2019-02-28 | \n",
" CA3 | \n",
" 1 | \n",
" day | \n",
" 7000 | \n",
" Free | \n",
" ... | \n",
" 2.0 | \n",
" 28.0 | \n",
" 3 | \n",
" 4.0 | \n",
" 5.666667 | \n",
" 10 | \n",
" 17 | \n",
" 0 | \n",
" 77 days | \n",
" 77 | \n",
"
\n",
" \n",
" 4188 | \n",
" HI599354 | \n",
" C02 | \n",
" M | \n",
" 2018-12-13 | \n",
" NaT | \n",
" CA3 | \n",
" 0 | \n",
" day | \n",
" 7000 | \n",
" Free | \n",
" ... | \n",
" NaN | \n",
" NaN | \n",
" 5 | \n",
" 7.5 | \n",
" 7.500000 | \n",
" 10 | \n",
" 30 | \n",
" 1 | \n",
" 138 days | \n",
" 138 | \n",
"
\n",
" \n",
" 4189 | \n",
" GD796859 | \n",
" C02 | \n",
" F | \n",
" 2018-12-14 | \n",
" NaT | \n",
" CA3 | \n",
" 0 | \n",
" day | \n",
" 7000 | \n",
" Free | \n",
" ... | \n",
" NaN | \n",
" NaN | \n",
" 6 | \n",
" 7.5 | \n",
" 7.250000 | \n",
" 8 | \n",
" 29 | \n",
" 1 | \n",
" 137 days | \n",
" 137 | \n",
"
\n",
" \n",
" 4190 | \n",
" GD082270 | \n",
" C02 | \n",
" F | \n",
" 2018-12-14 | \n",
" 2019-02-28 | \n",
" CA3 | \n",
" 1 | \n",
" day | \n",
" 7000 | \n",
" Free | \n",
" ... | \n",
" 2.0 | \n",
" 28.0 | \n",
" 3 | \n",
" 5.0 | \n",
" 6.000000 | \n",
" 10 | \n",
" 18 | \n",
" 0 | \n",
" 76 days | \n",
" 76 | \n",
"
\n",
" \n",
" 4191 | \n",
" OA426023 | \n",
" C02 | \n",
" F | \n",
" 2018-12-14 | \n",
" NaT | \n",
" CA3 | \n",
" 0 | \n",
" day | \n",
" 7000 | \n",
" Free | \n",
" ... | \n",
" NaN | \n",
" NaN | \n",
" 8 | \n",
" 9.0 | \n",
" 9.500000 | \n",
" 12 | \n",
" 38 | \n",
" 1 | \n",
" 137 days | \n",
" 137 | \n",
"
\n",
" \n",
"
\n",
"
4192 rows × 24 columns
\n",
"
"
],
"text/plain": [
" userid class gender start_date end_date event_type is_deleted \\\n",
"0 OA832399 C01 F 2015-05-01 NaT CA1 0 \n",
"1 PL270116 C01 M 2015-05-01 NaT CA1 0 \n",
"2 OA974876 C01 M 2015-05-01 NaT CA1 0 \n",
"3 HD024127 C01 F 2015-05-01 NaT CA1 -1 \n",
"4 IK271057 C01 M 2015-05-01 NaT CA1 0 \n",
"... ... ... ... ... ... ... ... \n",
"4187 IK562610 C02 F 2018-12-13 2019-02-28 CA3 1 \n",
"4188 HI599354 C02 M 2018-12-13 NaT CA3 0 \n",
"4189 GD796859 C02 F 2018-12-14 NaT CA3 0 \n",
"4190 GD082270 C02 F 2018-12-14 2019-02-28 CA3 1 \n",
"4191 OA426023 C02 F 2018-12-14 NaT CA3 0 \n",
"\n",
" class_name price event_name ... end_month end_day min median \\\n",
"0 all 10000 None ... NaN NaN 2 5.0 \n",
"1 all 10000 None ... NaN NaN 3 5.0 \n",
"2 all 10000 None ... NaN NaN 3 5.0 \n",
"3 all 10000 None ... NaN NaN 2 4.5 \n",
"4 all 10000 None ... NaN NaN 2 3.5 \n",
"... ... ... ... ... ... ... ... ... \n",
"4187 day 7000 Free ... 2.0 28.0 3 4.0 \n",
"4188 day 7000 Free ... NaN NaN 5 7.5 \n",
"4189 day 7000 Free ... NaN NaN 6 7.5 \n",
"4190 day 7000 Free ... 2.0 28.0 3 5.0 \n",
"4191 day 7000 Free ... NaN NaN 8 9.0 \n",
"\n",
" mean max sum routine period period_day \n",
"0 4.833333 8 58 1 1460 days 1460 \n",
"1 5.083333 7 61 1 1460 days 1460 \n",
"2 4.583333 6 55 1 1460 days 1460 \n",
"3 4.833333 7 58 1 1460 days 1460 \n",
"4 3.750000 5 45 1 1460 days 1460 \n",
"... ... ... ... ... ... ... \n",
"4187 5.666667 10 17 0 77 days 77 \n",
"4188 7.500000 10 30 1 138 days 138 \n",
"4189 7.250000 8 29 1 137 days 137 \n",
"4190 6.000000 10 18 0 76 days 76 \n",
"4191 9.500000 12 38 1 137 days 137 \n",
"\n",
"[4192 rows x 24 columns]"
]
},
"execution_count": 54,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# 코드를 입력해 주세요\n",
"# user 데이터 프레임을 조회하세요.\n",
"user"
]
},
{
"cell_type": "code",
"execution_count": 55,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"\n",
"\n",
"
\n",
" \n",
" \n",
" | \n",
" gender | \n",
" is_deleted | \n",
" class_name | \n",
" price | \n",
" event_name | \n",
" min | \n",
" max | \n",
" median | \n",
" max | \n",
" sum | \n",
" routine | \n",
" period_day | \n",
"
\n",
" \n",
" \n",
" \n",
" 0 | \n",
" F | \n",
" 0 | \n",
" all | \n",
" 10000 | \n",
" None | \n",
" 2 | \n",
" 8 | \n",
" 5.0 | \n",
" 8 | \n",
" 58 | \n",
" 1 | \n",
" 1460 | \n",
"
\n",
" \n",
" 1 | \n",
" M | \n",
" 0 | \n",
" all | \n",
" 10000 | \n",
" None | \n",
" 3 | \n",
" 7 | \n",
" 5.0 | \n",
" 7 | \n",
" 61 | \n",
" 1 | \n",
" 1460 | \n",
"
\n",
" \n",
" 2 | \n",
" M | \n",
" 0 | \n",
" all | \n",
" 10000 | \n",
" None | \n",
" 3 | \n",
" 6 | \n",
" 5.0 | \n",
" 6 | \n",
" 55 | \n",
" 1 | \n",
" 1460 | \n",
"
\n",
" \n",
" 3 | \n",
" F | \n",
" -1 | \n",
" all | \n",
" 10000 | \n",
" None | \n",
" 2 | \n",
" 7 | \n",
" 4.5 | \n",
" 7 | \n",
" 58 | \n",
" 1 | \n",
" 1460 | \n",
"
\n",
" \n",
" 4 | \n",
" M | \n",
" 0 | \n",
" all | \n",
" 10000 | \n",
" None | \n",
" 2 | \n",
" 5 | \n",
" 3.5 | \n",
" 5 | \n",
" 45 | \n",
" 1 | \n",
" 1460 | \n",
"
\n",
" \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
"
\n",
" \n",
" 4187 | \n",
" F | \n",
" 1 | \n",
" day | \n",
" 7000 | \n",
" Free | \n",
" 3 | \n",
" 10 | \n",
" 4.0 | \n",
" 10 | \n",
" 17 | \n",
" 0 | \n",
" 77 | \n",
"
\n",
" \n",
" 4188 | \n",
" M | \n",
" 0 | \n",
" day | \n",
" 7000 | \n",
" Free | \n",
" 5 | \n",
" 10 | \n",
" 7.5 | \n",
" 10 | \n",
" 30 | \n",
" 1 | \n",
" 138 | \n",
"
\n",
" \n",
" 4189 | \n",
" F | \n",
" 0 | \n",
" day | \n",
" 7000 | \n",
" Free | \n",
" 6 | \n",
" 8 | \n",
" 7.5 | \n",
" 8 | \n",
" 29 | \n",
" 1 | \n",
" 137 | \n",
"
\n",
" \n",
" 4190 | \n",
" F | \n",
" 1 | \n",
" day | \n",
" 7000 | \n",
" Free | \n",
" 3 | \n",
" 10 | \n",
" 5.0 | \n",
" 10 | \n",
" 18 | \n",
" 0 | \n",
" 76 | \n",
"
\n",
" \n",
" 4191 | \n",
" F | \n",
" 0 | \n",
" day | \n",
" 7000 | \n",
" Free | \n",
" 8 | \n",
" 12 | \n",
" 9.0 | \n",
" 12 | \n",
" 38 | \n",
" 1 | \n",
" 137 | \n",
"
\n",
" \n",
"
\n",
"
4192 rows × 12 columns
\n",
"
"
],
"text/plain": [
" gender is_deleted class_name price event_name min max median max \\\n",
"0 F 0 all 10000 None 2 8 5.0 8 \n",
"1 M 0 all 10000 None 3 7 5.0 7 \n",
"2 M 0 all 10000 None 3 6 5.0 6 \n",
"3 F -1 all 10000 None 2 7 4.5 7 \n",
"4 M 0 all 10000 None 2 5 3.5 5 \n",
"... ... ... ... ... ... ... ... ... ... \n",
"4187 F 1 day 7000 Free 3 10 4.0 10 \n",
"4188 M 0 day 7000 Free 5 10 7.5 10 \n",
"4189 F 0 day 7000 Free 6 8 7.5 8 \n",
"4190 F 1 day 7000 Free 3 10 5.0 10 \n",
"4191 F 0 day 7000 Free 8 12 9.0 12 \n",
"\n",
" sum routine period_day \n",
"0 58 1 1460 \n",
"1 61 1 1460 \n",
"2 55 1 1460 \n",
"3 58 1 1460 \n",
"4 45 1 1460 \n",
"... ... ... ... \n",
"4187 17 0 77 \n",
"4188 30 1 138 \n",
"4189 29 1 137 \n",
"4190 18 0 76 \n",
"4191 38 1 137 \n",
"\n",
"[4192 rows x 12 columns]"
]
},
"execution_count": 55,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# 코드를 입력해 주세요\n",
"# user 데이터 프레임에서 다음의 결과와 같이 컬럼을 선택 후 df 변수에 저장하세요.\n",
"df = user[['gender', 'is_deleted', 'class_name', 'price', 'event_name', 'min', 'max', 'median', 'max', 'sum', 'routine', 'period_day']]\n",
"df"
]
},
{
"cell_type": "code",
"execution_count": 56,
"metadata": {},
"outputs": [],
"source": [
"# 코드를 입력해 주세요\n",
"# df에서 is_deleted 컬럼을 Y로 나머지를 X로 설정하세요\n",
"X = df.loc[:, df.columns != 'is_deleted']\n",
"Y = df['is_deleted']"
]
},
{
"cell_type": "code",
"execution_count": 57,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"\n",
"\n",
"
\n",
" \n",
" \n",
" | \n",
" gender | \n",
" class_name | \n",
" price | \n",
" event_name | \n",
" min | \n",
" max | \n",
" median | \n",
" max | \n",
" sum | \n",
" routine | \n",
" period_day | \n",
"
\n",
" \n",
" \n",
" \n",
" 0 | \n",
" F | \n",
" all | \n",
" 10000 | \n",
" None | \n",
" 2 | \n",
" 8 | \n",
" 5.0 | \n",
" 8 | \n",
" 58 | \n",
" 1 | \n",
" 1460 | \n",
"
\n",
" \n",
" 1 | \n",
" M | \n",
" all | \n",
" 10000 | \n",
" None | \n",
" 3 | \n",
" 7 | \n",
" 5.0 | \n",
" 7 | \n",
" 61 | \n",
" 1 | \n",
" 1460 | \n",
"
\n",
" \n",
" 2 | \n",
" M | \n",
" all | \n",
" 10000 | \n",
" None | \n",
" 3 | \n",
" 6 | \n",
" 5.0 | \n",
" 6 | \n",
" 55 | \n",
" 1 | \n",
" 1460 | \n",
"
\n",
" \n",
" 3 | \n",
" F | \n",
" all | \n",
" 10000 | \n",
" None | \n",
" 2 | \n",
" 7 | \n",
" 4.5 | \n",
" 7 | \n",
" 58 | \n",
" 1 | \n",
" 1460 | \n",
"
\n",
" \n",
" 4 | \n",
" M | \n",
" all | \n",
" 10000 | \n",
" None | \n",
" 2 | \n",
" 5 | \n",
" 3.5 | \n",
" 5 | \n",
" 45 | \n",
" 1 | \n",
" 1460 | \n",
"
\n",
" \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
"
\n",
" \n",
" 4187 | \n",
" F | \n",
" day | \n",
" 7000 | \n",
" Free | \n",
" 3 | \n",
" 10 | \n",
" 4.0 | \n",
" 10 | \n",
" 17 | \n",
" 0 | \n",
" 77 | \n",
"
\n",
" \n",
" 4188 | \n",
" M | \n",
" day | \n",
" 7000 | \n",
" Free | \n",
" 5 | \n",
" 10 | \n",
" 7.5 | \n",
" 10 | \n",
" 30 | \n",
" 1 | \n",
" 138 | \n",
"
\n",
" \n",
" 4189 | \n",
" F | \n",
" day | \n",
" 7000 | \n",
" Free | \n",
" 6 | \n",
" 8 | \n",
" 7.5 | \n",
" 8 | \n",
" 29 | \n",
" 1 | \n",
" 137 | \n",
"
\n",
" \n",
" 4190 | \n",
" F | \n",
" day | \n",
" 7000 | \n",
" Free | \n",
" 3 | \n",
" 10 | \n",
" 5.0 | \n",
" 10 | \n",
" 18 | \n",
" 0 | \n",
" 76 | \n",
"
\n",
" \n",
" 4191 | \n",
" F | \n",
" day | \n",
" 7000 | \n",
" Free | \n",
" 8 | \n",
" 12 | \n",
" 9.0 | \n",
" 12 | \n",
" 38 | \n",
" 1 | \n",
" 137 | \n",
"
\n",
" \n",
"
\n",
"
4192 rows × 11 columns
\n",
"
"
],
"text/plain": [
" gender class_name price event_name min max median max sum routine \\\n",
"0 F all 10000 None 2 8 5.0 8 58 1 \n",
"1 M all 10000 None 3 7 5.0 7 61 1 \n",
"2 M all 10000 None 3 6 5.0 6 55 1 \n",
"3 F all 10000 None 2 7 4.5 7 58 1 \n",
"4 M all 10000 None 2 5 3.5 5 45 1 \n",
"... ... ... ... ... ... ... ... ... ... ... \n",
"4187 F day 7000 Free 3 10 4.0 10 17 0 \n",
"4188 M day 7000 Free 5 10 7.5 10 30 1 \n",
"4189 F day 7000 Free 6 8 7.5 8 29 1 \n",
"4190 F day 7000 Free 3 10 5.0 10 18 0 \n",
"4191 F day 7000 Free 8 12 9.0 12 38 1 \n",
"\n",
" period_day \n",
"0 1460 \n",
"1 1460 \n",
"2 1460 \n",
"3 1460 \n",
"4 1460 \n",
"... ... \n",
"4187 77 \n",
"4188 138 \n",
"4189 137 \n",
"4190 76 \n",
"4191 137 \n",
"\n",
"[4192 rows x 11 columns]"
]
},
"execution_count": 57,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# 코드를 입력해 주세요\n",
"# X를 출력하세요.\n",
"X"
]
},
{
"cell_type": "code",
"execution_count": 58,
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"0 0\n",
"1 0\n",
"2 0\n",
"3 -1\n",
"4 0\n",
" ..\n",
"4187 1\n",
"4188 0\n",
"4189 0\n",
"4190 1\n",
"4191 0\n",
"Name: is_deleted, Length: 4192, dtype: int64"
]
},
"execution_count": 58,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# 코드를 입력해 주세요\n",
"# Y를 출력하세요.\n",
"Y"
]
},
{
"cell_type": "code",
"execution_count": 59,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"\n",
"\n",
"
\n",
" \n",
" \n",
" | \n",
" price | \n",
" min | \n",
" max | \n",
" median | \n",
" max | \n",
" sum | \n",
" routine | \n",
" period_day | \n",
" gender_F | \n",
" gender_M | \n",
" class_name_all | \n",
" class_name_day | \n",
" class_name_night | \n",
" event_name_Free | \n",
" event_name_None | \n",
" event_name_Sale | \n",
"
\n",
" \n",
" \n",
" \n",
" 0 | \n",
" 10000 | \n",
" 2 | \n",
" 8 | \n",
" 5.0 | \n",
" 8 | \n",
" 58 | \n",
" 1 | \n",
" 1460 | \n",
" 1 | \n",
" 0 | \n",
" 1 | \n",
" 0 | \n",
" 0 | \n",
" 0 | \n",
" 1 | \n",
" 0 | \n",
"
\n",
" \n",
" 1 | \n",
" 10000 | \n",
" 3 | \n",
" 7 | \n",
" 5.0 | \n",
" 7 | \n",
" 61 | \n",
" 1 | \n",
" 1460 | \n",
" 0 | \n",
" 1 | \n",
" 1 | \n",
" 0 | \n",
" 0 | \n",
" 0 | \n",
" 1 | \n",
" 0 | \n",
"
\n",
" \n",
" 2 | \n",
" 10000 | \n",
" 3 | \n",
" 6 | \n",
" 5.0 | \n",
" 6 | \n",
" 55 | \n",
" 1 | \n",
" 1460 | \n",
" 0 | \n",
" 1 | \n",
" 1 | \n",
" 0 | \n",
" 0 | \n",
" 0 | \n",
" 1 | \n",
" 0 | \n",
"
\n",
" \n",
" 3 | \n",
" 10000 | \n",
" 2 | \n",
" 7 | \n",
" 4.5 | \n",
" 7 | \n",
" 58 | \n",
" 1 | \n",
" 1460 | \n",
" 1 | \n",
" 0 | \n",
" 1 | \n",
" 0 | \n",
" 0 | \n",
" 0 | \n",
" 1 | \n",
" 0 | \n",
"
\n",
" \n",
" 4 | \n",
" 10000 | \n",
" 2 | \n",
" 5 | \n",
" 3.5 | \n",
" 5 | \n",
" 45 | \n",
" 1 | \n",
" 1460 | \n",
" 0 | \n",
" 1 | \n",
" 1 | \n",
" 0 | \n",
" 0 | \n",
" 0 | \n",
" 1 | \n",
" 0 | \n",
"
\n",
" \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
" ... | \n",
"
\n",
" \n",
" 4187 | \n",
" 7000 | \n",
" 3 | \n",
" 10 | \n",
" 4.0 | \n",
" 10 | \n",
" 17 | \n",
" 0 | \n",
" 77 | \n",
" 1 | \n",
" 0 | \n",
" 0 | \n",
" 1 | \n",
" 0 | \n",
" 1 | \n",
" 0 | \n",
" 0 | \n",
"
\n",
" \n",
" 4188 | \n",
" 7000 | \n",
" 5 | \n",
" 10 | \n",
" 7.5 | \n",
" 10 | \n",
" 30 | \n",
" 1 | \n",
" 138 | \n",
" 0 | \n",
" 1 | \n",
" 0 | \n",
" 1 | \n",
" 0 | \n",
" 1 | \n",
" 0 | \n",
" 0 | \n",
"
\n",
" \n",
" 4189 | \n",
" 7000 | \n",
" 6 | \n",
" 8 | \n",
" 7.5 | \n",
" 8 | \n",
" 29 | \n",
" 1 | \n",
" 137 | \n",
" 1 | \n",
" 0 | \n",
" 0 | \n",
" 1 | \n",
" 0 | \n",
" 1 | \n",
" 0 | \n",
" 0 | \n",
"
\n",
" \n",
" 4190 | \n",
" 7000 | \n",
" 3 | \n",
" 10 | \n",
" 5.0 | \n",
" 10 | \n",
" 18 | \n",
" 0 | \n",
" 76 | \n",
" 1 | \n",
" 0 | \n",
" 0 | \n",
" 1 | \n",
" 0 | \n",
" 1 | \n",
" 0 | \n",
" 0 | \n",
"
\n",
" \n",
" 4191 | \n",
" 7000 | \n",
" 8 | \n",
" 12 | \n",
" 9.0 | \n",
" 12 | \n",
" 38 | \n",
" 1 | \n",
" 137 | \n",
" 1 | \n",
" 0 | \n",
" 0 | \n",
" 1 | \n",
" 0 | \n",
" 1 | \n",
" 0 | \n",
" 0 | \n",
"
\n",
" \n",
"
\n",
"
4192 rows × 16 columns
\n",
"
"
],
"text/plain": [
" price min max median max sum routine period_day gender_F \\\n",
"0 10000 2 8 5.0 8 58 1 1460 1 \n",
"1 10000 3 7 5.0 7 61 1 1460 0 \n",
"2 10000 3 6 5.0 6 55 1 1460 0 \n",
"3 10000 2 7 4.5 7 58 1 1460 1 \n",
"4 10000 2 5 3.5 5 45 1 1460 0 \n",
"... ... ... ... ... ... ... ... ... ... \n",
"4187 7000 3 10 4.0 10 17 0 77 1 \n",
"4188 7000 5 10 7.5 10 30 1 138 0 \n",
"4189 7000 6 8 7.5 8 29 1 137 1 \n",
"4190 7000 3 10 5.0 10 18 0 76 1 \n",
"4191 7000 8 12 9.0 12 38 1 137 1 \n",
"\n",
" gender_M class_name_all class_name_day class_name_night \\\n",
"0 0 1 0 0 \n",
"1 1 1 0 0 \n",
"2 1 1 0 0 \n",
"3 0 1 0 0 \n",
"4 1 1 0 0 \n",
"... ... ... ... ... \n",
"4187 0 0 1 0 \n",
"4188 1 0 1 0 \n",
"4189 0 0 1 0 \n",
"4190 0 0 1 0 \n",
"4191 0 0 1 0 \n",
"\n",
" event_name_Free event_name_None event_name_Sale \n",
"0 0 1 0 \n",
"1 0 1 0 \n",
"2 0 1 0 \n",
"3 0 1 0 \n",
"4 0 1 0 \n",
"... ... ... ... \n",
"4187 1 0 0 \n",
"4188 1 0 0 \n",
"4189 1 0 0 \n",
"4190 1 0 0 \n",
"4191 1 0 0 \n",
"\n",
"[4192 rows x 16 columns]"
]
},
"execution_count": 59,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# X를 One Hot 변환하세요\n",
"X = pd.get_dummies(X)\n",
"X"
]
},
{
"cell_type": "code",
"execution_count": 60,
"metadata": {},
"outputs": [],
"source": [
"# 코드를 입력해 주세요\n",
"# X와 Y를 Train 과 Test로 분할하세요.\n",
"from sklearn.model_selection import train_test_split\n",
"x_train, x_test, y_train, y_test = train_test_split(X, Y, stratify=Y, random_state=0)"
]
},
{
"cell_type": "code",
"execution_count": 61,
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"(0.8110687022900763, 0.6688931297709924)"
]
},
"execution_count": 61,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# 코드를 입력해 주세요\n",
"# KNN 알고리즘을 이용하여 분류하세요.\n",
"from sklearn.neighbors import KNeighborsClassifier\n",
"model = KNeighborsClassifier(n_neighbors=3).fit(x_train, y_train)\n",
"model.score(x_train, y_train), model.score(x_test, y_test)"
]
},
{
"cell_type": "code",
"execution_count": 62,
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"(0.7232824427480916, 0.7146946564885496)"
]
},
"execution_count": 62,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# 코드를 입력해 주세요\n",
"# LogisticRegression 알고리즘을 이용하여 분류하세요.\n",
"from sklearn.linear_model import LogisticRegression\n",
"model = LogisticRegression(max_iter=10000).fit(x_train, y_train)\n",
"model.score(x_train, y_train), model.score(x_test, y_test)"
]
},
{
"cell_type": "code",
"execution_count": 63,
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"(0.7487277353689568, 0.7309160305343512)"
]
},
"execution_count": 63,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# 코드를 입력해 주세요\n",
"# DecisionTree 알고리즘을 이용하여 분류하세요.\n",
"from sklearn.tree import DecisionTreeClassifier\n",
"model = DecisionTreeClassifier(max_depth=5).fit(x_train, y_train)\n",
"model.score(x_train, y_train), model.score(x_test, y_test)"
]
},
{
"cell_type": "code",
"execution_count": 64,
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"price 0.004176\n",
"min 0.021206\n",
"max 0.005352\n",
"median 0.341665\n",
"max 0.009488\n",
"sum 0.548655\n",
"routine 0.000000\n",
"period_day 0.067465\n",
"gender_F 0.000000\n",
"gender_M 0.000000\n",
"class_name_all 0.000000\n",
"class_name_day 0.000000\n",
"class_name_night 0.000000\n",
"event_name_Free 0.000000\n",
"event_name_None 0.000000\n",
"event_name_Sale 0.001994\n",
"dtype: float64"
]
},
"execution_count": 64,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# 코드를 입력해 주세요\n",
"# feature_importances_를 Series로 변환하세요.\n",
"fi = pd.Series(model.feature_importances_, index=X.columns)\n",
"fi"
]
},
{
"cell_type": "code",
"execution_count": 66,
"metadata": {},
"outputs": [
{
"data": {
"image/png": "\n",
"text/plain": [
""
]
},
"metadata": {
"needs_background": "light"
},
"output_type": "display_data"
}
],
"source": [
"# 코드를 입력해 주세요\n",
"# 변환된 결과를 시각화 하세요.\n",
"fi.sort_values(ascending=False).plot(kind='bar')\n",
"plt.show()"
]
}
],
"metadata": {
"kernelspec": {
"display_name": "Python 3 (ipykernel)",
"language": "python",
"name": "python3"
},
"language_info": {
"codemirror_mode": {
"name": "ipython",
"version": 3
},
"file_extension": ".py",
"mimetype": "text/x-python",
"name": "python",
"nbconvert_exporter": "python",
"pygments_lexer": "ipython3",
"version": "3.9.12"
}
},
"nbformat": 4,
"nbformat_minor": 4
}