America/Argentina/Buenos_Aires 57
America/Argentina/Cordoba 26
America/Argentina/Mendoza 55
然后我通过take按照这个顺序截取了最后10行:
In [316]: count_subset = agg_counts.take(indexer)[-10:]
In [317]: count_subset
Out[317]: a Not Windows Windows tz
America/Sao_Paulo 13 20
Europe/Madrid 16 19
Pacifific/Honolulu 0 36
Asia/Tokyo 2 35
Europe/London 43 31
America/Denver 132 59
America/Los_Angeles 130 252
America/Chicago 115 285 245 276
America/New_York 339 912
这里也可以生成一张条形图。我将使用stacked=True来生成一张堆积条形图(如图2-2所 示):In [319]: count_subset.plot(kind='barh', stacked=True) 由于在这张图中不太容易看清楚较小分组中Windows用户的相对比例,因此我们可以将 各行规范化为“总计为1”并重新绘图(如图2-3所示):
In [321]: normed_subset = count_subset.div(count_subset.sum(1), axis=0)
In [322]: normed_subset.plot(kind='barh', stacked=True)
这里所用到的所有方法都会在本书后续的章节中详细讲解。
MovieLens 1M数据集
GroupLens Research(http://www.grouplens.org/node/73)采集了一组从20世纪90年末 到21世纪初由MovieLens用户提供的电影评分数据。这些数据中包括电影评分、电影元数据(风格类型和年代)以及关于用户的人口统计学数据(年龄、邮编、性别和职业等)。基于机器学习算法的推荐系统一般都会对此类数据感兴趣。虽然我不会在本书中详细介绍机器学习技术,但我会告诉你如何对这种数据进行切片切块以满足实际需求。