今天,我拿到了梦寐以求的大规模中文语料库,总大小超过 1 G ,覆盖了各个时代各种文体的中文资料。有了这个语料库后,我便能完成很多早就想做的事情,比方说,统计各种文体中出现频率最高的四字词。给定一段文本后,基本的统计过程如下:
1. 统计所有连续四字的出现频数;
2. 按频数对所有四字组合从高到低排序;
3. 删掉所有包含非汉字字符(比如数字、标点)的四字组合;
4. 删掉明显不成词或者不成词组的四字组合(这一步有人为因素,因此下面的数据并不是 100% 客观的);
5. 列出频数最高的 10 个四字词。
所选用的统计对象基本上都是数十万字的篇幅,所有步骤都是用 Mathematica 实现的。下面是结果:
《物种起源》
自然选择、生活条件、一个物种、博物学者、这种情形、我们可以、如果我们、发生变异、这个问题、同一物种
《梦的解析》
我们可以、歇斯底里、梦的内容、可以看出、精神分析、梦的形成、梦的解析、俄狄浦斯、愿望达成、典型的梦
《自私的基因》
雄性个体、雌性个体、生存机器、利他行为、自然选择、这种情况、亲缘关系、我们可以、复制基因、一个个体
《时间简史》
爱因斯坦、量子力学、统一理论、事件视界、人们可以、不确定性、弗利德曼、早期宇宙、科学定律、时间箭头
《资本论》
剩余价值、资本主义、生产资料、使用价值、劳动时间、劳动过程、另一方面、生活资料、生产过程、剩余劳动
《全球通史》
欧亚大陆、伊斯兰教、世界大战、民族主义、印第安人、土耳其人、葡萄牙人、阿拉伯人、澳大利亚、罗马帝国
《邓小平文选(一)》
这个问题、社会主义、资产阶级、统一战线、代表大会、共产党员、少数民族、党的领导、群众运动、人民群众
《谁动了我的奶酪》
这个故事、新的奶酪、在迷宫中、觉得自己、没有奶酪、我的奶酪、害怕改变、在墙上写、我们公司、找到奶酪
《西游记(上)》
行者笑道、齐天大圣、有诗为证、毕竟不知、摇身一变、行者闻言、观音菩萨、按落云头、三藏闻言、厉声高叫
《1984》
从来没有、什么东西、没有什么、思想警察、什么地方、双重思想、他们两人、杜松子酒、泰晤士报、没有办法
《股市宝典》
证券分析、日成交量、证券市场、技术分析、十日成交、五日成交、股票市场、上市公司、趋近交叉、波浪理论
《实用软件工程》
软件开发、软件工程、数据流图、测试用例、程序设计、维护工作、需求分析、程序结构、开发工作、规格说明
《李敖有话说》
言论自由、看到没有、为什么呢、告诉大家、什么原因、给大家看、换句话说、为什么不、可以看到、我们可以
《易中天品三国》
这个时候、三国演义、这样一个、是什么呢、这个事情、我们知道、这个地方、投降曹操、为什么要、三顾茅庐
《故事会》2005年
怎么回事、就在这时、不好意思、哈哈大笑、中年男子、什么时候、不一会儿、这天晚上、莫名其妙、大吃一惊
1982年北京话口语调查记录
那时候儿、这个这个、那个那个、解放以后、没有什么、就是那个、儿媳妇儿、也不知道、就是这个、我那会儿
《人民日报》2000年4月份新闻版
社会主义、领导干部、思想政治、一个中国、巴勒斯坦、中国政府、中国人民、改革开放、全国人大、两国人民
沙发?
中文语料库是什么。。。。
易中天品三国 投降曹操 – –
“我们可以”的出现频率很高啊。。。
编程的时候就是一个个字读取组成四字然后统计数量?有没有一些删除不成词不成词组的非人为的语句或办法?
另外中文语料库是购买的么?
社会主义、领导干部、思想政治、一个中国、巴勒斯坦、中国政府、中国人民、改革开放、全国人大、两国人民
求具体词汇挨个解释……
因为不知道人为删除的工作量是否很大。。
是不是可以对组成的四字分成2+2或者1+3或者整个等等在一个预备的中文大词典里检索。。。
行者笑道:“齐天大圣,有诗为证;毕竟不知,摇身一变。”
行者闻言,观音菩萨按落云头。三藏闻言,厉声高叫。
那时候儿,这个这个,那个那个。
解放以后,没有什么,就是那个。
儿媳妇儿,也不知道,就是这个。
我那会儿⋯⋯
一边看一边笑
我最近很想得到一份人类死亡时间统计数据,不过这个肯定是相当地不好弄
有没有郭小四的小说啊!强烈建议统计看到底是“倾国倾城”比较多还是“泪流满面”比较多!
李敖的特征真实鲜明:
言论自由、看到没有、为什么呢、告诉大家、什么原因、给大家看、换句话说、为什么不、可以看到、我们可以……
外文翻译的作品, 明显跟译者的风格相关。前几部里都有“我们可以we can…”,这些都可以只翻译为“可以XX”,个人观点相比完全直译融会贯通的意义读着更舒服
外文翻译的作品, 明显跟译者的风格相关。前几部里都有“我们可以we can…”,这些都可以只翻译为“可以XX”,个人观点相比完全直译融会贯通的意译读着更舒服
《易中天品三国》
这个时候、三国演义、这样一个、是什么呢、这个事情、我们知道、这个地方、投降曹操、为什么要、三顾茅庐
这个问题嘛
每本书的第一个词,已构成代表。
看到你这个研究非常高兴,不知道你是否能把代码开源呢?
投降曹操…….
想看韩少的小说和四娘的小说统计
同问中文语料库是什么,在哪可以找到
《西游记(上)》
行者笑道、齐天大圣
居然是行者笑道!
OOrz
只有1G?内容这么多?
应该把2字的和3字的都统计一下,综合排名
爬围脖统计下试试- -。
求这个算法。最好能指定从某个txt文件中读取。
1G约为5.3亿个字吧,似乎也不算多,不过古文字都很简练,不像现在的书动辄50万字什么的
看到李敖的那个“为什么呢”“告诉大家”,笑了
相比google n-gram,中文语料还是少了些
Software Engineering果断同感了……
《故事会》2005年:中年男子。= =
如果你有兴趣,也可以看看coca,corpra of contemporary american english,看人家怎么弄英文语料库的。
4天看完了你的博客,仍是意犹未尽,回头再仔细品味那些让人抓耳挠腮的趣题。博主完全颠覆了数学在普通人眼中艰深刻板鲜有生趣的形象,数学乃是科学的皇后,所有科学中最自由的,最灵动的思索,却被教育体制糟蹋得不成样子。真希望多一些博主这样的人,爱数学用数学。
有空了把你的博客整理出来扔到学校里做数学科普。
网页里公式不少是不是该考虑弄个Tex4ht或者mathJex来显示公式?
把博客统计一下吧
同意35楼!
这个什么“大规模中文语料库”不就是书库么?除非压缩,纯txt的话,超过1G又能有多少?随便攒点小说就几个G了
4. 删掉明显不成词或者不成词组的四字组合(这一步有人为因素,因此下面的数据并不是 100% 客观的);
这一步怎么用机器实现的啊?
斗胆问一句,这么大规模数据,算法是怎么实现的那?
这个那个亮了
疯了,matrix67的研究果然无聊。。还有侧栏的广告。。。卖猪的??
我是从新浪微博过来的!
“我们可以”、“人们可以” 这样的高频词很大程度是翻译导致的
最后一个。。。。
没有红楼梦,亲!
这个有类似的东西:文字云
http://timc.idv.tw/wordcloud/zh/
比如本页的分析:
http://timc.idv.tw/wordcloud/zh/#html:http://www.matrix67.com/blog/archives/4619
同问 4. 删掉明显不成词或者不成词组的四字组合(这一步有人为因素,因此下面的数据并不是 100% 客观的);
这一步怎么用机器实现的啊?
如果可以的话 能否把中文语料库也给我一份?我是江云帆,如果是商业的,麻烦告诉我哪里有购买
四大名著要集齐了!
比这个更大的语料库我都有
三藏闻言,厉声高叫
哈哈笑死了
語料庫和盜版電子書大合集有什麽異同 – –
五亿个字肯定不止,会傻到不压缩么,毛估估再乘个十吧。
人工剔除再简单不过了,绝大部分都只会出现了了几次,完全不用关心,只要人工分析前十里面的是否是合理的词就行了。
感觉这个挺有用的,从这些词就可看出这本书主要讲的什么,作者行文方式也可以猜得出个大概
PS:《梦的解析》里“歇斯底里”能排那么高,《易中天品三国》“投降曹操”和“三顾茅庐”能够入围挺出人意料的。《时间简史》里“爱因斯坦”应该大都出现在“爱因斯坦相对论”中吧。《西游记》的“有诗为证”是最恶心烦人的。
三国里大家都在考虑是不是要投降曹操,
西游记里妖怪都不好好说话,非要厉声高叫,八戒和沙僧可能耳朵不太好,师父虽然听得见,但是做出反应的只有大师兄,猴子可能会降落,可能会笑着回答,也可能会transform…
爱因斯坦庆幸自己的中文名恰好是四个字,
中国人蒙古人德国人英国人泪流满面,为啥国名只得两个字,
故事会基本上在说大叔们晚上的活动,做之前有一定的时间安排(什么时候),做的时候很爽(哈哈大笑),有一定的持续性(不一会儿),可能会有意外情况发生(就在这时),做完之后会让一些人不好意思,一些人大吃一惊,外人莫名其妙,不知道是怎么回事.
这个和这一阵子很火的一个新闻很像。
就是从全宋词里面找到出现频率很高的一些词,然后组合起来,凑成一首词。
这是如何实现的啊?急需实现这样的功能。。
正在弄中文分词,顺代补上四大名著数据
三国演义:
如之奈何、喊声大震、却说曹操、如此如此、人有诗赞、孔明笑曰、却说孔明、玄德大喜、推出斩之、却说玄德
水浒传:
两个公人、不在话下、柴大官人、那妇人道、黑旋风李逵、西门庆道、水军头领、宋江军马、弟兄两个、宋江大喜
红楼梦:
宝玉笑道、宝玉听了、周瑞家的、王夫人道、老太太的、贾母笑道、听了这话、林之孝家、小丫头子、不在话下
ls一看就是假的。人脑YY出来的总是不自觉地biased
者闻言,观音菩萨按落云头。三藏闻言,厉声高叫。
哇塞,居然是沙发?留个名