无聊小研究：各种文体中出现频率最高的四字词

今天，我拿到了梦寐以求的大规模中文语料库，总大小超过 1 G ，覆盖了各个时代各种文体的中文资料。有了这个语料库后，我便能完成很多早就想做的事情，比方说，统计各种文体中出现频率最高的四字词。给定一段文本后，基本的统计过程如下：

  1. 统计所有连续四字的出现频数；
  2. 按频数对所有四字组合从高到低排序；
  3. 删掉所有包含非汉字字符（比如数字、标点）的四字组合；
  4. 删掉明显不成词或者不成词组的四字组合（这一步有人为因素，因此下面的数据并不是 100% 客观的）；
  5. 列出频数最高的 10 个四字词。

所选用的统计对象基本上都是数十万字的篇幅，所有步骤都是用 Mathematica 实现的。下面是结果：

《物种起源》

自然选择、生活条件、一个物种、博物学者、这种情形、我们可以、如果我们、发生变异、这个问题、同一物种

《梦的解析》

我们可以、歇斯底里、梦的内容、可以看出、精神分析、梦的形成、梦的解析、俄狄浦斯、愿望达成、典型的梦

《自私的基因》

雄性个体、雌性个体、生存机器、利他行为、自然选择、这种情况、亲缘关系、我们可以、复制基因、一个个体

《时间简史》

爱因斯坦、量子力学、统一理论、事件视界、人们可以、不确定性、弗利德曼、早期宇宙、科学定律、时间箭头

《资本论》

剩余价值、资本主义、生产资料、使用价值、劳动时间、劳动过程、另一方面、生活资料、生产过程、剩余劳动

《全球通史》

欧亚大陆、伊斯兰教、世界大战、民族主义、印第安人、土耳其人、葡萄牙人、阿拉伯人、澳大利亚、罗马帝国

《邓小平文选（一）》

这个问题、社会主义、资产阶级、统一战线、代表大会、共产党员、少数民族、党的领导、群众运动、人民群众

《谁动了我的奶酪》

这个故事、新的奶酪、在迷宫中、觉得自己、没有奶酪、我的奶酪、害怕改变、在墙上写、我们公司、找到奶酪

《西游记（上）》

行者笑道、齐天大圣、有诗为证、毕竟不知、摇身一变、行者闻言、观音菩萨、按落云头、三藏闻言、厉声高叫

《1984》

从来没有、什么东西、没有什么、思想警察、什么地方、双重思想、他们两人、杜松子酒、泰晤士报、没有办法

《股市宝典》

证券分析、日成交量、证券市场、技术分析、十日成交、五日成交、股票市场、上市公司、趋近交叉、波浪理论

《实用软件工程》

软件开发、软件工程、数据流图、测试用例、程序设计、维护工作、需求分析、程序结构、开发工作、规格说明

《李敖有话说》

言论自由、看到没有、为什么呢、告诉大家、什么原因、给大家看、换句话说、为什么不、可以看到、我们可以

《易中天品三国》

这个时候、三国演义、这样一个、是什么呢、这个事情、我们知道、这个地方、投降曹操、为什么要、三顾茅庐

《故事会》2005年

怎么回事、就在这时、不好意思、哈哈大笑、中年男子、什么时候、不一会儿、这天晚上、莫名其妙、大吃一惊

1982年北京话口语调查记录

那时候儿、这个这个、那个那个、解放以后、没有什么、就是那个、儿媳妇儿、也不知道、就是这个、我那会儿

《人民日报》2000年4月份新闻版

社会主义、领导干部、思想政治、一个中国、巴勒斯坦、中国政府、中国人民、改革开放、全国人大、两国人民

Matrix67: The Aha Moments

无聊小研究：各种文体中出现频率最高的四字词

发表评论取消回复

发表评论 取消回复

发表评论取消回复