2003031112—解道聪—Python数据分析五一假期作业—MySQL的安装以及使用
项目 | 期中试卷 |
课程班级博客链接 | 20级数据班(本) |
这个作业要求链接 | 作业要求 |
博客名称 | 2003031112—解道聪—Python数据分析五一假期作业—MySQL的安装以及使用 |
要求 | 每道题要有题目,代码(使用插入代码,不会插入代码的自己查资料解决,不要直接截图代码!!),截图(只截运行结果)。 |
《Python数据分析》课程期中上机考试题目
一、分析1996~2015年人口数据特征间的关系(1题50分,共50分)
考查知识点:掌握pyplot常用的绘图参数的调节方法;掌握子图的绘制方法;掌握绘制图形的保存与展示方法;掌握散点图和折线图的作用与绘制方法。
需求说明:
人口数据总共拥有6个特征,分别为年末总人口、男性人口、女性人口、城镇人口、乡村人口和年份。查看各个特征随着时间推移发生的变化情况可以分析出未来男女人口比例、城乡人口变化的方向。
截图如下:
要求:
(1)使用NumPy库读取人口数据。
(2)创建画布,并添加子图。
(3)在两个子图上分别绘制散点图和折线图。
(4)保存,显示图片。
(5)分析未来人口变化趋势
代码:
#导入模块 import numpy as np import matplotlib.pyplot as plt #使?numpy库读取??数据 data=np.load("D:/360安全浏览器下载/populations.npz",allow_pickle=True)#读取文件,返回输入数组 print(data.files)#查看?件中的数组 print(data['data']) print(data['feature_names']) plt.rcParams['font.sans-serif'] = 'SimHei' # 设置中文显示 plt.rcParams['axes.unicode_minus'] = False# 防止字符无法显示 name=data['feature_names']#提取其中的feature_names数组,视为数据的标签 values=data['data']#提取其中的data数组,视为数据的存在位置 #设置画布 p1=plt.figure(figsize=(19,11))#确定画布?? pip1=p1.add_subplot(2,1,1)#创建?个两??列的?图并开始绘制 #在?图上绘制散点图 plt.scatter(values[0:20,0],values[0:20,1])#,marker='8',color='red' plt.ylabel('总人口(万?)') plt.legend('年末') plt.title('1996~2015年末与各类人口散点图') pip2=p1.add_subplot(2,1,2)#绘制?图2 plt.scatter(values[0:20,0],values[0:20,2])#,marker='o',color='yellow' plt.scatter(values[0:20,0],values[0:20,3])#,marker='D',color='green' plt.scatter(values[0:20,0],values[0:20,4])#,marker='p',color='blue' plt.scatter(values[0:20,0],values[0:20,5])#,marker='s',color='purple' plt.xlabel('时间') plt.ylabel('总人口(万人)') plt.xticks(values[0:20,0]) plt.legend(['男性','女性','城镇','乡村']) #在?图上绘制折线图 p2=plt.figure(figsize=(12,12)) p1=p2.add_subplot(2,1,1) plt.plot(values[0:20,0],values[0:20,1])#,linestyle = '-',color='r',marker='8' plt.ylabel('总人口(万人)') plt.xticks(range(0,20,1),values[range(0,20,1),0],rotation=45)#rotation设置倾斜度 plt.legend('年末') plt.title('1996~2015年末总与各类人口折线图') p2=p2.add_subplot(2,1,2) plt.plot(values[0:20,0],values[0:20,2])#,'y-' plt.plot(values[0:20,0],values[0:20,3])#,'g-.' plt.plot(values[0:20,0],values[0:20,4])#,'b-' plt.plot(values[0:20,0],values[0:20,5])#,'p-' plt.xlabel('时间') plt.ylabel('总人口(万人)') plt.xticks(values[0:20,0]) plt.legend(['男性','女性','城镇','乡村']) #显?图? plt.show()
二、读取并查看P2P网络贷款数据主表的基本信息(1题10分,共10分)
考查知识点:掌握常见的数据读取方式;掌握DataFrame常用属性与方法;掌握基础时间数据处理方法;掌握分组聚合的原理与方法;掌握透视表与交叉表的制作。
需求说明:
P2P贷款主表数据主要存放了网贷用户的基本信息。探索数据的基本信息,能够洞察数据的整体分布、数据的类属关系、从而发现数据间的关联。
要求:
(1)使用ndim、shape、memory_usage属性分别查看维度、大小、占用内存信息。
代码:
import os import pandas as pd master = pd.read_csv('C:/Users/admin/Desktop/Training_Master.csv',encoding='gbk') print('P2P网络贷款主表数据的维度为:',master.ndim) print('P2P网络贷款主表数据的形状大小为:',master.shape) print('P2P网络贷款主表数据的占用内存为:',master.memory_usage) #代码16-2 print('P2P网络贷款主表数据的描述性统计为:\n',master.describe())
结果
P2P网络贷款主表数据的维度为: 2 P2P网络贷款主表数据的形状大小为: (30000, 228) P2P网络贷款主表数据的占用内存为:P2P网络贷款主表数据的描述性统计为: Idx UserInfo_1 UserInfo_3 WeblogInfo_1 WeblogInfo_2 \ count 30000.000000 29994.000000 29993.000000 970.000000 28342.000000 mean 46318.673267 3.219911 4.694329 2.201031 0.131466 std 26640.397805 1.827684 1.321458 7.831679 0.358486 min 3.000000 0.000000 0.000000 1.000000 0.000000 25% 22924.250000 1.000000 4.000000 1.000000 0.000000 50% 46849.500000 3.000000 5.000000 1.000000 0.000000 75% 69447.250000 5.000000 5.000000 1.000000 0.000000 max 91703.000000 7.000000 7.000000 133.000000 4.000000 WeblogInfo_3 WeblogInfo_4 WeblogInfo_5 WeblogInfo_6 WeblogInfo_7 \ count 970.000000 28349.000000 28349.000000 28349.000000 30000.000000 mean 1.308247 3.025962 1.816960 2.948711 10.632800 std 7.866457 3.772421 1.701177 3.770300 16.097588 min 0.000000 1.000000 1.000000 1.000000 0.000000 25% 0.000000 1.000000 1.000000 1.000000 2.000000 50% 0.000000 2.000000 1.000000 2.000000 6.000000 75% 1.000000 3.000000 2.000000 3.000000 13.000000 max 133.000000 165.000000 73.000000 165.000000 722.000000 ... SocialNetwork_9 SocialNetwork_10 SocialNetwork_11 \ count ... 30000.000000 30000.000000 30000.000000 mean ... 35.516167 75.211233 -0.999267 std ... 135.954587 742.978305 0.052911 min ... -1.000000 -1.000000 -1.000000 25% ... -1.000000 -1.000000 -1.000000 50% ... -1.000000 -1.000000 -1.000000 75% ... -1.000000 -1.000000 -1.000000 max ... 3242.000000 71253.000000 6.000000 SocialNetwork_12 SocialNetwork_13 SocialNetwork_14 SocialNetwork_15 \ count 30000.000000 30000.000000 30000.000000 30000.000000 mean -0.745033 0.221167 0.062033 0.027967 std 0.441473 0.420545 0.242598 0.164880 min -1.000000 0.000000 0.000000 0.000000 25% -1.000000 0.000000 0.000000 0.000000 50% -1.000000 0.000000 0.000000 0.000000 75% 0.000000 0.000000 0.000000 0.000000 max 1.000000 2.000000 3.000000 1.000000 SocialNetwork_16 SocialNetwork_17 target count 30000.000000 30000.000000 30000.000000 mean 0.016633 0.253467 0.073267 std 0.127895 0.437296 0.260578 min 0.000000 0.000000 0.000000 25% 0.000000 0.000000 0.000000 50% 0.000000 0.000000 0.000000 75% 0.000000 1.000000 0.000000 max 1.000000 3.000000 1.000000 [8 rows x 208 columns]
三、提取用户信息更新表和登录信息表的时间信息(1题10分,共10分)
考查知识点:掌握常见的数据读取方式;掌握DataFrame常用属性与方法;掌握基础时间数据处理方法;掌握分组聚合的原理与方法;掌握透视表与交叉表的制作。
需求说明:
用户信息更新表和登录信息表汇总均存在大量的时间数据,提取时间数据内存在的信息,一方面可以加深对数据的理解,另一方面能够探索这部分信息和目标的关联程度。同时用户登录时间、借款成交时间、用户信息更新时间这些时间的时间差信息冶能反映出P2P网络贷款不同用户的行为信息。
要求:
(1)使用to_datetime函数转换用户信息更新表和登录信息表的时间字符串。
代码:
import pandas as pd LogInfo = pd.read_csv('C:/Users/admin/Desktop/Training_LogInfo.csv',encoding='gbk') Userupdate = pd.read_csv('C:/Users/admin/Desktop/Training_Userupdate.csv',encoding='gbk') # 转换时间字符串 LogInfo['Listinginfo1']=pd.to_datetime(LogInfo['Listinginfo1']) LogInfo['LogInfo3']=pd.to_datetime(LogInfo['LogInfo3']) print('转换登录信息表的时间字符串前5行:\n',LogInfo.head()) Userupdate['ListingInfo1']=pd.to_datetime(Userupdate['ListingInfo1']) Userupdate['UserupdateInfo2']=pd.to_datetime(Userupdate['UserupdateInfo2']) print('转换用户信息更新表的时间字符串前5行:\n',Userupdate.head())
结果:
转换登录信息表的时间字符串前5行: Idx Listinginfo1 LogInfo1 LogInfo2 LogInfo3 0 10001 2014-03-05 107 6 2014-02-20 1 10001 2014-03-05 107 6 2014-02-23 2 10001 2014-03-05 107 6 2014-02-24 3 10001 2014-03-05 107 6 2014-02-25 4 10001 2014-03-05 107 6 2014-02-27 转换用户信息更新表的时间字符串前5行: Idx ListingInfo1 UserupdateInfo1 UserupdateInfo2 0 10001 2014-03-05 _EducationId 2014-02-20 1 10001 2014-03-05 _HasBuyCar 2014-02-20 2 10001 2014-03-05 _LastUpdateDate 2014-02-20 3 10001 2014-03-05 _MarriageStatusId 2014-02-20 4 10001 2014-03-05 _MobilePhone 2014-02-20
四、使用分组聚合方法进一步分析用户信息更新表和登录信息表(1题30分,共30分)
考查知识点:掌握常见的数据读取方式;掌握DataFrame常用属性与方法;掌握基础时间数据处理方法;掌握分组聚合的原理与方法;掌握透视表与交叉表的制作。
需求说明:
分析用户信息更新表和登录信息表时,除了提取时间本身的信息外,还可以结合用户编号进行分组聚合,然后进行组内分析。通过组内分析可以得出每组组内的最早和最晚信息更新时间、最早和最晚登录时间、信息更新的次数、登录的次数等信息。
要求:
(1)使用groupby方法对用户信息更新表和登录信息表进行分组。
(2)使用agg方法求取分组后的最早和最晚更新及登录时间。
(3)使用size方法求取分组后的数据的信息更新次数与登录次数。
代码:import pandas as pd import numpy as np LogInfo = pd.read_csv('C:/Users/admin/Desktop/Training_LogInfo (1).csv',encoding='gbk') Userupdate = pd.read_csv('C:/Users/admin/Desktop/Training_Userupdate.csv',encoding='gbk') # 使用groupby方法对用户信息更新表和登录信息表进行分组 LogGroup = LogInfo[['Idx','LogInfo3']].groupby(by = 'Idx') UserGroup = Userupdate[['Idx','UserupdateInfo2']].groupby(by = 'Idx') #代码18-2 # 使用agg方法求取分组后的最早,最晚,更新登录时间 print('分组后的最早登录时间为:\n',LogGroup.agg(np.min)) print('分组后的最晚登录时间为:\n',LogGroup.agg(np.max)) print('分组后的最早更新时间为:\n',UserGroup.agg(np.min)) print('分组后的最晚更新时间为:\n',UserGroup.agg(np.max)) #代码18-3 # 使用size方法求取分组后的数据的信息更新次数与登录次数 print('分组后的数据的信息更新次数为:\n',LogGroup.size()) print('分组后的数据的登录次数为:\n',UserGroup.size())
运行结果:
分组后的最早登录时间为: LogInfo3 Idx 3 2013-08-30 5 2013-10-24 8 2013-10-25 12 2012-12-08 16 2013-10-27 ... ... 91689 2014-10-26 91693 2014-10-26 91695 2014-09-26 91702 2014-10-26 91703 2014-10-26 [28987 rows x 1 columns] 分组后的最晚登录时间为: LogInfo3 Idx 3 2013-11-01 5 2013-11-06 8 2013-11-06 12 2013-11-01 16 2013-11-04 ... ... 91689 2014-10-29 91693 2014-11-05 91695 2014-10-30 91702 2014-10-28 91703 2014-11-03 [28987 rows x 1 columns] 分组后的最早更新时间为: UserupdateInfo2 Idx 3 2013/08/30 5 2013/10/24 8 2013/10/25 12 2012/12/08 16 2013/10/27 ... ... 91689 2014/10/26 91693 2014/10/26 91695 2014/09/26 91702 2014/10/26 91703 2014/10/26 [29995 rows x 1 columns] 分组后的最晚更新时间为: UserupdateInfo2 Idx 3 2013/08/30 5 2013/10/24 8 2013/11/04 12 2013/10/02 16 2013/11/05 ... ... 91689 2014/10/26 91693 2014/10/28 91695 2014/10/26 91702 2014/10/26 91703 2014/11/02 [29995 rows x 1 columns] 分组后的数据的信息更新次数为: Idx 3 26 5 11 8 125 12 199 16 15 ... 91689 7 91693 15 91695 20 91702 7 91703 21 Length: 28987, dtype: int64 分组后的数据的登录次数为: Idx 3 13 5 13 8 14 12 14 16 13 .. 91689 12 91693 3 91695 20 91702 11 91703 15 Length: 29995, dtype: int64
?