数学之美——Google的统计语言模型

Cody's blog

  • 主页
  • About
  • Photos
  • Contact

4月 4: 数学之美——Google的统计语言模型

不知道是Google比较善于吹嘘还是怎么的。在这篇文章中号称Google的英汉翻译系统是全世界最好的,并且高出其他系统很多。然而我在里面输了一个“Where are you from?”,翻译出来的结果居然是“你在哪里?”。而用freetranslation、worldlingo等其他翻译系统,则是正确地翻成“你是哪儿的人.”或者“你从哪来?”大家也可以再随便试一些简单的短句比如“Can you read?”之类,Google的翻译都让人啼笑皆非。那么我们也许会想,Google的强项也许是在长句翻译?于是找了一些长句多的学术文章,发现翻译出来的更是不明所以。此外从日常网页的翻译效果来看也看不出Google有多好。

我就不明白了,Google,你的翻译系统到底比别人高明在哪里呢?

以下转自Google黑板报:

统计语言模型 (Statistical Language Models)

Google 的使命是整合全球的信息,所以我们一直致力于研究如何让机器对信息、语言做最好的理解和处理。长期以来,人类一直梦想着能让机器代替人来翻译语言、识别语音、认识文字(不论是印刷体或手写体)和进行海量文献的自动检索,这就需要让机器理解语言。但是人类的语言可以说是信息里最复杂最动态的一部分。为了解决这个问题,人们容易想到的办法就是让机器模拟人类进行学习 - 学习人类的语法、分析语句等等。尤其是在乔姆斯基(Noam Chomsky 有史以来最伟大的语言学家)提出 “形式语言” 以后,人们更坚定了利用语法规则的办法进行文字处理的信念。遗憾的是,几十年过去了,在计算机处理语言领域,基于这个语法规则的方法几乎毫无突破。

其实早在几十年前,数学家兼信息论的祖师爷 香农 (Claude Shannon)就提出了用数学的办法处理自然语言的想法。遗憾的是当时的计算机条件根本无法满足大量信息处理的需要,所以他这个想法当时并没有被人们重视。七十年代初,有了大规模集成电路的快速计算机后,香农的梦想才得以实现。

首先成功利用数学方法解决自然语言处理问题的是语音和语言处理大师贾里尼克 (Fred Jelinek)。当时贾里尼克在 IBM 公司做学术休假 (Sabbatical Leave),领导了一批杰出的科学家利用大型计算机来处理人类语言问题。统计语言模型就是在那个时候提出的。

给大家举个例子:在很多涉及到自然语言处理的领域,如机器翻译、语音识别、印刷体或手写体识别、拼写纠错、汉字输入和文献查询中,我们都需要知道一个文字序列是否能构成一个大家能理解的句子,显示给使用者。对这个问题,我们可以用一个简单的统计模型来解决这个问题。

如果 S 表示一连串特定顺序排列的词 w1, w2,…, wn ,换句话说,S 可以表示某一个由一连串特定顺序排练的词而组成的一个有意义的句子。现在,机器对语言的识别从某种角度来说,就是想知道S在文本中出现的可能性,也就是数学上所说的S 的概率用 P(S) 来表示。利用条件概率的公式,S 这个序列出现的概率等于每一个词出现的概率相乘,于是P(S) 可展开为:

P(S) = P(w1)P(w2|w1)P(w3| w1 w2)…P(wn|w1 w2…wn-1)

其中 P (w1) 表示第一个词w1 出现的概率;P (w2|w1) 是在已知第一个词的前提下,第二个词出现的概率;以次类推。不难看出,到了词wn,它的出现概率取决于它前面所有词。从计算上来看,各种可能性太多,无法实现。因此我们假定任意一个词wi的出现概率只同它前面的词 wi-1 有关(即马尔可夫假设),于是问题就变得很简单了。现在,S 出现的概率就变为:

P(S) = P(w1)P(w2|w1)P(w3|w2)…P(wi|wi-1)…
(当然,也可以假设一个词又前面N-1个词决定,模型稍微复杂些。)

接下来的问题就是如何估计 P (wi|wi-1)。现在有了大量机读文本后,这个问题变得很简单,只要数一数这对词(wi-1,wi) 在统计的文本中出现了多少次,以及 wi-1 本身在同样的文本中前后相邻出现了多少次,然后用两个数一除就可以了,(P(wi|wi-1) = P (wi)/[P(wi-1,wi)]。

也许很多人不相信用这么简单的数学模型能解决复杂的语音识别、机器翻译等问题。其实不光是常人,就连很多语言学家都曾质疑过这种方法的有效性,但事实证明,统计语言模型比任何已知的借助某种规则的解决方法都有效。比如在 Google 的中英文自动翻译中,用的最重要的就是这个统计语言模型。去年美国标准局(NIST) 对所有的机器翻译系统进行了评测,Google 的系统是不仅是全世界最好的,而且高出所有基于规则的系统很多。

现在,读者也许已经能感受到数学的美妙之处了,它把一些复杂的问题变得如此的简单。当然,真正实现一个好的统计语言模型还有许多细节问题需要解决。贾里尼克和他的同事的贡献在于提出了统计语言模型,而且很漂亮地解决了所有的细节问题。十几年后,李开复用统计语言模型把 997 词语音识别的问题简化成了一个 20 词的识别问题,实现了有史以来第一次大词汇量非特定人连续语音的识别。

我是一名科学研究人员 ,我在工作中经常惊叹于数学语言应用于解决实际问题上时的神奇。我也希望把这种神奇讲解给大家听。当然,归根结底,不管什莫样的科学方法、无论多莫奇妙的解决手段都是为人服务的。我希望 Google 多努力一分,用户就多一分搜索的喜悦。

Posted by Cody Cai in 软件 评论: (5) Trackbacks: (4)

Trackbacks
Trackback specific URI for this entry

警钳の看ˇˇˇ
あの泣にかえりたいˇˇˇ檀面であそんだラジコン、海は科となってしまったけどˉˉˉ警钳のころの姐胯なこころは积ち鲁けたい、そんな客粗でありたい—
Weblog: ラジコン警钳クラブ
Tracked: 4月 05, 15:23
鏁板涔嬬編鈥斺擥oogle鐨勭粺璁¤瑷妯″瀷
鏁板涔嬬編鈥斺擥oogle鐨勭粺璁¤瑷妯″瀷 褰撴妧鏈鐢ㄥ湪涓嶅悎閫傜殑鍦版柟浼氭庢牱锛 [URL=http://www.nytimes.com/2006/04/1 ...
Weblog: 娓稿湪姘翠腑鐨勫
Tracked: 4月 15, 23:46
啼笑皆非的Google翻译
上次我已经提到号称世界最好的在线翻译系统的Google翻译的一些弱智错误。这次从网上得知一个更夸张的错误:请在http://www.google.com/translate_t里选择英翻中,然后输入“Blog China”,答案是“中国性爱”。那么输入“Google China Blog”呢?恭喜,你得到了它:“中国性
Weblog: Cody's Blog
Tracked: 6月 09, 15:38

评论
Display comments as (Linear | Threaded)

#1 - HaiTurtle said:
2006-04-07 23:24 - (Reply)

haha, very interesting comments.
也许是google的算法有问题。看看我的博客里写得对不对。

#2 - Cody said:
2006-04-09 19:42 - (Reply)

呵呵,我想你的Blog指出的也许只是那篇文章中的错误。Google真正的算法是不会犯这种低级错误的。
也许还只是因为Google的全文翻译还不够成熟的缘故。

#3 - math said:
2006-04-12 10:39 - (Reply)

google也是在哗众取宠,我本专业是学数学的,我相当的知道数学的美妙,可是也不用在黑板报上这么搞吧,google现在已经不是以前的google了。

#3.1 - Cody said:
2006-04-12 18:31 - (Reply)

呵呵,原来碰到一个专业的了。幸会幸会。

#4 - solo 2006-09-19 16:31 - (Reply)

我个人认为,统计语言模型更适合做分词搜索,不太适合用在机器翻译上。google的中英翻译是我用过的最差的翻译之一。

#5 - 无 2007-03-01 23:06 - (Reply)

上面说的那一大堆公式就是隐马尔科夫模型嘛!


添加评论

Enclosing asterisks marks text as bold (*word*), underscore are made via _word_.
Standard emoticons like :-) and ;-) are converted to images.

To prevent automated Bots from commentspamming, please enter the string you see in the image below in the appropriate input box. Your comment will only be submitted if the strings match. Please ensure that your browser supports and accepts cookies, or your comment cannot be verified correctly.
CAPTCHA

 
 

欢迎

由于IE6及以下版本不支持W3C的CSS标准及带Alpha通道的PNG图片,为达到本站最佳浏览体验,建议您 ,也可使用IE7或尝试更快速的Opera。联系站长。

Google本站

Syndicate This Blog

XML RSS 2.0 feed
ATOM/XML ATOM 1.0 feed
XML RSS 2.0 评论

分类

  • XML 软件 (22)
  • XML 数码 (2)
  • XML DC (10)
  • XML PDA (3)
  • XML 文摘 (71)
  • XML 网络 (19)
  • XML 学术 (11)
  • XML 娱乐 (11)
  • XML 唱片 (18)
  • XML 其他 (2)
  • XML 个人 (35)

所有分类

豆瓣

评论

Bobi 关于 不可思议的巧合
四, 18.09.2008 23:41
Free ringtones for http://freenkringtrmp3.hi5.com but Obama ringtones http://mp3maringtones.hi5.com USA news and womens [...]


ji juanjuan 关于 张孟业谈胡锦涛和刘永清的大学往事(zz)
五, 20.06.2008 14:35
我们也要这样做人啊!


HONG 关于 张孟业谈胡锦涛和刘永清的大学往事(zz)
日, 15.06.2008 13:46
胡主席辛苦了!


Worldwide Relocation 关于 中文Blog及RSS搜索引擎大全
五, 16.05.2008 18:06
tq for ur info...it's very interesting.....


anon 关于 张孟业谈胡锦涛和刘永清的大学往事(zz)
日, 11.05.2008 12:36
祝福中国在胡主席德领导下蒸蒸日 上!


王 关于 “谷歌”的宣传Flash
五, 09.05.2008 18:14
说真的这个flash太庸俗,没有突 鯣oogle的文化特点,没什么感觉 鲎郑 一般般!


gas 关于 打印ppt要诀
日, 20.04.2008 11:02
多谢楼主


anon 关于 张孟业谈胡锦涛和刘永清的大学往事(zz)
二, 04.03.2008 12:25
FLG安排他死的,好给一些轮子的鼓 吹者栽赃给共党.


ha 关于 google终于全面支持opera了
六, 01.03.2008 13:29
支持得这么差~还是用IE


古朴 关于 张孟业谈胡锦涛和刘永清的大学往事(zz)
三, 14.11.2007 11:26
胡主席:您是中国的骄傲,我敬佩您 !爱戴您!感谢您!胡锦涛能当上主 脑颍掖蟾帕私饬恕4厦鳎 罚竦溃胶汀⑷嗽导训鹊日庑 [...]


anon 关于 张孟业谈胡锦涛和刘永清的大学往事(zz)
日, 28.10.2007 02:12
“再另:据称张孟业9月1日在泰国 车祸身亡。”何以如此蹊跷,是谁 安排他死的?


Olive 关于 张孟业谈胡锦涛和刘永清的大学往事(zz)
二, 23.10.2007 11:40
胡锦涛能当上主席的原因,我大概 了解了。聪明,谦逊,厚道,平和 、人缘佳等等这些优点,他成为我 们的领导人,是历史的必然。祝我 [...]


Anonymous 关于 在线制作个性化图标
六, 22.09.2007 20:42
http://www.55.la 适合中国站长使用~


zuix 关于 民调:中国人最满意和最不满意什么zz
一, 27.08.2007 03:49
看了你的文章,感觉不错! 你可以推荐到 "最X网" [...]


cody 关于 从美国汇款到中国方法总结zt
一, 27.08.2007 02:31
另外建行卡在BOA取钱也免费 http://www.asia.ccb.com/hongko ng/chinese/personal_banking/eb anking/atm.html


链接

我的最爱:

  • 维基百科
  • Windows Live
  • 掌上新闻
  • 水木社区
  • cnBeta
  • SourceForge
  • Slashdot

友情链接:

  • 行维规范
  • 雅静
  • Zig's blog
  • 朱星星的blog
  • alvin的Blog
  • Zhang-Zi's Blog
  • Blue Castle
  • cooee's dream

创作共用

Creative Commons License - Some Rights Reserved
本站内容使用授权依照创作共用约定

Powered by

Serendipity PHP Weblog

Show tagged entries

xml .NET
xml 李开复
xml Apache
xml 明星
xml Blog
xml C#
xml 求职
xml 性
xml Google
xml 微软
xml 图片
xml MySQL
xml PHP
xml Pocket PC
xml 标语
xml 搞笑
xml 股票
xml 汉语
xml 火车
xml 荒诞
 

Layout by Andreas Viklund | Serendipity template by Carl