等待的时间比你想象的更久

    最近忙于写学年论文,一直没时间更新 Blog 。不过,我却并没有停止在网上闲逛的习惯。这几天会慢慢把最近看到的有意思的东西写下来。今天学到的一个比较有趣的东西就是:平均等待时间往往大于平均间隔时间的一半。

    比方说,有这么一趟公交车,平均每 10 分钟发一班车,但具体的发车时间是很不固定的。如果你在某个时刻来到车站,等到下一班车平均要花多久呢?很多人或许都觉得,平均等待时间应该是 5 分钟,毕竟平均间隔时间是 10 分钟嘛。然而事实上,平均等待时间是大于 5 分钟的。这是因为,10 分钟的发车间隔只是一个平均值,实际间隔有时是几分钟,有时是十几分钟。如果你出现在车站的时刻,正好位于几分钟的间隔中,你的平均等待时间显然就会小于 5 分钟;但如果你出现在车站的时刻,正好位于较长的间隔中,那么你的平均等待时间就会大于 5 分钟。关键就在这里:你出现在车站的时刻,更有可能落在了较长的发车间隔中。因而,平均等待时间会偏向于大于 5 分钟的情况。

    那么,如果公交车发车的时间足够随机,概率均等地分布在时间轴上(假设平均间隔仍是 10 分钟),那么当你来到车站时,平均需要多久才能等到公交车呢?答案或许很出人意料——平均等待时间就是 10 分钟。下面我们就来证明这一点。

Read more…

用Mathematica寻找最相似的汉字

    Mathematica 提供了一个看上去毫无用途的无厘头函数 Rasterize ,它可以以图片的格式输出运算结果。比如,下面这个句子可以打印出 (x+1)^n 的展开式的“倒影”:

   

    今天我突然想到,我们可以利用这个函数很方便地分析汉字在图象上的性质。函数 Binarize 可以把图象转换为单色单通道, ImageData 则可以把图象转换成数组的形式,以便我们定量分析。因此,下面这句话就可以把一个汉字转换成 12*12 的 01 矩阵:

   

Read more…

从全唐诗对偶字中提取字义网络图

    语言统计分析期末大作业要求我们统计全唐诗中的对偶字,并用所得到的统计结果反过来评判出对仗最工整的诗句。我在数据处理过程中突然想到,鉴于互成对偶的两个字之间有一定的语义联系,我们便有了一个庞大的汉字语义关联库;如果把所有汉字之间的关联画成一张图会是什么样子呢?于是我用 Mathematica 7 提出了全唐诗中处在对偶位置上的所有字对,得到了 464448 个可能的对偶关系;再利用一些算法得到了最稳定、最常用的 2000 个对偶关系,把它们都描绘在一张大图上,于是便有了上面的这个图。点击这里查看高清无码大图,1600×1600 像素。可以看到,有语义关联的汉字自动地聚合到了一起。

Read more…

选C的概率真的是最高的!

从小老师就教导我们,不会做的题就选C,因为选择题选C的概率是最高的。事实上真是如此吗?今天我突发奇想,利用Google做了一个小实验。统计显示,答案选C的题果然是最多的!

Results 1 – 10 of about 364,000 for “这道题选A”.
Results 1 – 10 of about 352,000 for “这道题选B”.
Results 1 – 10 of about 521,000 for “这道题选C”.
Results 1 – 10 of about 254,000 for “这道题选D”.

Results 1 – 10 of about 2,140 for “这道题为什么选A”.
Results 1 – 10 of about 2,200 for “这道题为什么选B”.
Results 1 – 10 of about 2,580 for “这道题为什么选C”.
Results 1 – 10 of about 1,350 for “这道题为什么选D”.