昨天和同事聊到,汉语还真是奇怪,有“四分五裂”,有“五颜六色”,也有“七上八下”,但好像从没听说过六什么七什么的。于是想到,在汉语中,“数词 + 非数词 + 数词 + 非数词”的短语是怎样分布的呢?回到家后立即用 Mathematica 做了一个柱状图,绘出了九九八十一种数词短语模式在大规模真实语料中的出现频数。注意,这里统计的是总的出现频数,重复出现也会计算在内。另外,这是一个简单而机械的统计过程,因而 “三人一组”、“七天七夜”之类的非成语也被算了进来。
嗯,对,没有任何意义,纯属无聊之作。
沙发,顶
可是你没有统计“千言万语”“百转千回”之类的………………
支持下 nice
所以“射了一脸”这样的也被统计了?
两女一杯算不算?
一夜七次郎也算咯?
从哪搞到大规模真实语料
这个词典是M自带的还是?
哇图很漂亮
顶一夜七次.
二和两没有一起统计? 3,2应该比现在的图里面更多吧
我觉得(8,8)那儿应该有小高峰,八荣八耻嘛。
另外请问(4,8)是什么成语
回12L:四平八稳
还有四面八方什么的
十呢?没加上?
nice, 请问用什么软件做得图啊, 得学学, 不错.
@16楼 mathematica
那语料库你去哪里找的呢?
评论亮翻了……
吐槽下图吧……一柱擎天
十没有哦。。。如果是想91251个以上的汉字都算……用9乘91251乘9乘91251……@_@
很有趣的分布,无法用数学来刻画其规律
六出七擒…?
要是用对数坐标就好了
你这语料库居然连伟大的八荣八耻都没有,实在是太不社会主义了
涛哥很没面子
坐标是1-9啊,你的算法考虑了”五十步笑百步”之类的特殊情况吗?嘿嘿
我真的不想说任何的话了
Mathematica做出来的图那么漂亮呢?给我介绍本教程呗。
觉得LZ滴数学功底,足以去做投行了。
在这里搞数学教学滴钱途小了……算我没说,别因为这样把Matrix67给关了。
有统计一箭双雕吗?另外貌似不应该有空着的,买菜会有四斤七两的。
看到同事了,M也上班了,何方高就啊?
九浅一深 六浅一深有没有被统计?
七什么六什么 倒是有的。
还缺十、百、千、万、两、双
可以和平仄关联一下
一五一十……
七月七日略火啊
广东话可以说“九不搭八”
Mathematica 刚入手,看到这么漂亮的东东很受鼓舞,都是数据的玩家啊
哈哈,我曾经也搞过一张红宝书各字母开头单词的频数~
哈哈,我曾经也搞过一张红宝书各字母开头单词的频数~
M67大牛竟然都毕业了……在哪里上班啊?
这边有同学问你是从事计算机还是语文?
很好,不错哟
很有意思啊、在哪里看的啊
七情六欲
六新七荤