自动化测试

当前位置:首页 > 自动化测试

利用Python进行数据分析(三)第二章(续)

America/Argentina/Buenos_Aires 57 

America/Argentina/Cordoba 26 

America/Argentina/Mendoza 55 


然后我通过take按照这个顺序截取了最后10行: 

In [316]: count_subset = agg_counts.take(indexer)[-10:] 

In [317]: count_subset 

Out[317]: a Not Windows Windows tz

America/Sao_Paulo 13 20 

Europe/Madrid 16 19 

Pacifific/Honolulu 0 36 

Asia/Tokyo 2 35 

Europe/London 43 31 

America/Denver 132 59 

America/Los_Angeles 130 252 

America/Chicago 115 285 245 276 

America/New_York 339 912 


这里也可以生成一张条形图。我将使用stacked=True来生成一张堆积条形图(如图2-2所 示):In [319]: count_subset.plot(kind='barh', stacked=True) 由于在这张图中不太容易看清楚较小分组中Windows用户的相对比例,因此我们可以将 各行规范化为“总计为1”并重新绘图(如图2-3所示): 

In [321]: normed_subset = count_subset.div(count_subset.sum(1), axis=0) 

In [322]: normed_subset.plot(kind='barh', stacked=True) 

这里所用到的所有方法都会在本书后续的章节中详细讲解。 



MovieLens 1M数据集 

GroupLens Research(http://www.grouplens.org/node/73)采集了一组从20世纪90年末 到21世纪初由MovieLens用户提供的电影评分数据。这些数据中包括电影评分、电影元数据(风格类型和年代)以及关于用户的人口统计学数据(年龄、邮编、性别和职业等)。基于机器学习算法的推荐系统一般都会对此类数据感兴趣。虽然我不会在本书中详细介绍机器学习技术,但我会告诉你如何对这种数据进行切片切块以满足实际需求。

文章评论

表情

共 0 条评论,查看全部
  • 这篇文章还没有收到评论,赶紧来抢沙发吧~