不知道有多少人会象我这样后知后觉,直到最近才从科学网上知道了Google的一个好玩的东西,那就是Ngram Viewer。这是Google利用手里的数百万本数字化书籍制作了一个书籍词频统计器。之前曾作为Google Labs一员发布。用户可以对比多达5个词语在每年出版的图书里出现的次数多寡,支持英语、法语、德语、俄语、西班牙语和中文。
更棒的是所有数据都以创作共用形式授权免费下载和使用。而就在Google要关闭Google Labs的时候,很多项目都被迫下马了,但是幸运的是Ngram却是当之无愧的胜出者。Ngram图书浏览器成为了Google图书的一个成熟的部分。据开发人员爆料,Google图书包含了可追溯至1400年的约百万册图书,这大约占了所有发行过的书籍的10%。
我们从1880年到2008年的收集书籍中,以民主和科学做为关键词来看看其频率变化情况。从下图可以明显的看到德先生和赛先生往往是同气连枝共进退的。
几个关键的时间点可罗列如下:在辛亥革命期间,民主和科学的频率出现了第一个高峰。之后民主归为沉寂,而科学在五四运动期间有了剧烈的上升,然后再次下跌。在中共政权建立后二者缓慢爬升,在1960年前后,也正是“大跃进”等一系列折腾事件开始后,二者再次下跌。到文革结束和改革开放时期,才又再次回升。到八十年代中晚期,二者再次沉沦,其原因应该是著名的六四事件。由此,中国的民主和科学一直未有恢复。
没有评论:
发表评论