自动化测试

利用Python进行数据分析(三)第二章(续)

1 Anna F 2604 1880 

2 Emma F 2003 1880 

3 Elizabeth F 1939 1880

4 Minnie F 1746 1880 

5 Margaret F 1578 1880 

6 Ida F 1472 1880 

7 Alice F 1414 1880

8 Bertha F 1320 1880 

9 Sarah F 1288 1880 


你可以用这个数据集做很多事,例如: 计算指定名字(可以是你自己的,也可以是别人的)的年度比例。 

• 计算某个名字的相对排名。 

• 计算各年度最流行的名字,以及增长或减少最快的名字。 

• 分析名字趋势:元音、辅音、长度、总体多样性、拼写变化、首尾字母等。 

• 分析外源性趋势:圣经中的名字、名人、人口结构变化等。 

•利用前面介绍过的那些工具,这些分析工作都能很轻松地完成,因此我会尽量多讲一 些。我建议你下载这些数据并亲自试一试。如果你在这些数据中找到了某个有趣的模 式,我将非常乐意听上一听。 


到编写本书时为止,美国社会保障总署将该数据库按年度制成了多个数据文件,其中给出了每个性别/名字组合的出生总数。这些文件的原始档案可以在这里获取:http://www.ssa.gov/oact/babynames/limits.html? 


如果你在阅读本书的时候这个页面已经不见了,也可以用搜索引擎找找。下载 “National data”文件names.zip,解压后的目录中含有一组文件(如yob1880.txt)。我用UNIX的head命令查看了其中一个文件的前10行(在Windows上,你可以用more命令, 或直接在文本编辑器中打开): 

In [367]: !head -n 10 names/yob1880.txt 

Mary,F,7065 

Anna,F,2604 

Emma,F,2003 

Elizabeth,F,1939 

Minnie,F,1746 

Margaret,F,1578 

Ida,F,1472 

Alice,F,1414 

Bertha,F,1320 

Sarah,F,1288

文章评论

表情

共 0 条评论,查看全部
  • 这篇文章还没有收到评论,赶紧来抢沙发吧~