1 Anna F 2604 1880
2 Emma F 2003 1880
3 Elizabeth F 1939 1880
4 Minnie F 1746 1880
5 Margaret F 1578 1880
6 Ida F 1472 1880
7 Alice F 1414 1880
8 Bertha F 1320 1880
9 Sarah F 1288 1880
你可以用这个数据集做很多事,例如: 计算指定名字(可以是你自己的,也可以是别人的)的年度比例。
• 计算某个名字的相对排名。
• 计算各年度最流行的名字,以及增长或减少最快的名字。
• 分析名字趋势:元音、辅音、长度、总体多样性、拼写变化、首尾字母等。
• 分析外源性趋势:圣经中的名字、名人、人口结构变化等。
•利用前面介绍过的那些工具,这些分析工作都能很轻松地完成,因此我会尽量多讲一 些。我建议你下载这些数据并亲自试一试。如果你在这些数据中找到了某个有趣的模 式,我将非常乐意听上一听。
到编写本书时为止,美国社会保障总署将该数据库按年度制成了多个数据文件,其中给出了每个性别/名字组合的出生总数。这些文件的原始档案可以在这里获取:http://www.ssa.gov/oact/babynames/limits.html?
如果你在阅读本书的时候这个页面已经不见了,也可以用搜索引擎找找。下载 “National data”文件names.zip,解压后的目录中含有一组文件(如yob1880.txt)。我用UNIX的head命令查看了其中一个文件的前10行(在Windows上,你可以用more命令, 或直接在文本编辑器中打开):
In [367]: !head -n 10 names/yob1880.txt
Mary,F,7065
Anna,F,2604
Emma,F,2003
Elizabeth,F,1939
Minnie,F,1746
Margaret,F,1578
Ida,F,1472
Alice,F,1414
Bertha,F,1320
Sarah,F,1288