语言统计分析期末大作业要求我们统计全唐诗中的对偶字,并用所得到的统计结果反过来评判出对仗最工整的诗句。我在数据处理过程中突然想到,鉴于互成对偶的两个字之间有一定的语义联系,我们便有了一个庞大的汉字语义关联库;如果把所有汉字之间的关联画成一张图会是什么样子呢?于是我用 Mathematica 7 提出了全唐诗中处在对偶位置上的所有字对,得到了 464448 个可能的对偶关系;再利用一些算法得到了最稳定、最常用的 2000 个对偶关系,把它们都描绘在一张大图上,于是便有了上面的这个图。点击这里查看高清无码大图,1600×1600 像素。可以看到,有语义关联的汉字自动地聚合到了一起。
利用 Mathematica 7 的 CommunityStructurePartition 算法,我把这个图中的顶点大致分成了几个团体,每一个团体内的字基本上就构成了一个词类。这几天打算就这个题目继续研究下去,希望能得到一些更有意思的结果。
太强了吧!
A formidable share, I just given this onto a colleague who was doing a bit of analysis on this. And he in actual fact bought me breakfast because I found it for him.. smile. So let me reword that: Thnx for the treat! But yeah Thnkx for spending the time to debate this, I really feel strongly about it and love reading extra on this topic. If attainable, as you become expertise, would you thoughts updating your weblog with extra paclarutirs? It’s extremely helpful for me. Huge thumb up for this blog publish!
文理交汇,好看。
很奇妙诶……
强!
支持67继续研究!
Oh no! If I had to hear the sad news that Robert Hughes died, I’m glad I heard it from an artist friend like you. “The Shock of the New” was like my Bible in the 1970s, when I was an aspiring art critic studying art history and journalism at the University of Iowa. I wanted to grow up to BE Robert Hughes. You are so right that “He was something most writers about art are not, really fun to reo;.”dAnather 1970s exception to the art-writing-is-dull rule was “The Painted Word” by Tom Wolfe. Boy, did I love those two books! RIP, Robert Hughes.
啊~~~~我第一次发言诶~~~成功了……
接着对其中的顶点做个聚类吧
可惜图中的连线看不很清楚。还是做成flash比较好
关注一下
要是有三维图就好了,可以仔细观察一下哈哈。
生成这个图需要多长时间?
这么多个字…始终以”家”为中心啊~~
这些好玩的matlab程序能不能发布一下呢。
sna 的应用永远都是那么漂亮。不过,“利用一些算法得到了最稳定、最常用的 2000 个对偶关系”这个比较关注。
图片太小啦,都看不清楚
哈哈,挺有意思
我想起了我的期末论文,写的一个关于复杂网络和生物学系统化的东西。。。。
以后要是作诗的话,有了这张图就知道选什么字对偶了。
图也是用mathematica画的么?太有意思了
> “点击这里查看高清无码大图”
ls诸位是不是已经习惯了……
ls难道不清楚 这是M式幽默吗……
很强悍,不过大图也看不清楚呀。还是要有动态图加数据表也不错,坐等楼主研究完成吧。
非常好的分析!可将这种模型推广到日常管理中。我是数据化管理的专家!可通过我的博客了解我。
我的博客地址:http://chemyhuang.blog.163.com
嗯
可以最后做个自动写诗机
我估计这个应该有人 已经研究过这个东西了
感觉图中的连线不是很精确
好像不是连接每个汉字的中心
另外 有个问题 有些并不是字对偶 而是词对偶
是不是应该再研究下分词技术
另外也可以找找中文系的 问下文学的具体的诗词对偶的一些知识
to ls,lz就中文系的…
颜色-质地形容词,朝代名-地名,数词,连词类,自然现象-意象-气象-风景类,人体-生理-动作类,社会关系称谓类…
很漂亮哈。如果做成三维的,而且能自己drag就好了,应该还可以进一步聚聚类、标上不同颜色啥的。
而且似乎还可以在语义上预处理一下。比如“少”,可以代表“老少”的“少”,也可以代表“多少”的“少”,如果只用一个“少”来表示,那么可能会出现某一对偶在不同意义上压倒另一对偶的现象。
这个强大···
关注中 期待“更有意思的结果”~
呵呵,不知道你如果在提交作业的时候包含上这些内容,你的老师能不能看懂哈。
神啊,改变人类历史的图
这个要研究下,找找软件和教程去
建议如果是平面图线条不要交叉,否则看不出规律。
最好是3D图,不知道能能搞3维的
订阅量破6000了
楼上各位都这么惊讶,这只是自然语言处理里面最简单的技术了。
太猛了,我觉得如果能把虚词加上,就更强了。
有什么意义 吗?
刘慈欣的……《诗云》……………………
that is so cool!
可不可以具体说一下?
可不可以具体展开说一下?
图中的连线看不清。
如果可以查就会是个很棒的工具。写骈文很方便。
爱数学的中文系,博主简直就是怪兽啊~~
话说好比 流氓有文化.
是按照上下句相同位置来判定对偶词的么
很不错!支持!
awesome
我想知道最后得出的结论:哪首唐诗是最对偶的?
这个强大···
メンズ水着 + m
求源码,求资料,求细节,1371549332@qq.com正在学mathematica图与网络相关的东西,谢谢