這一系列文章的作者是google公司的科學(xué)家吳軍。他畢業(yè)于清華大學(xué)計算機系(本科)和電子工程系(碩士),并于1993-1996年在清華任講師。他于1996年起在美國約翰霍普金斯大學(xué)攻讀博士,并于XX年獲得計算機科學(xué)博士學(xué)位。在清華和約翰霍普金斯大學(xué)期間,吳軍博士致力于語音識別、自然語言處理,特別是統(tǒng)計語言模型的研究。他曾獲得1995年的全國人機語音智能接口會議的最佳論文獎和XX年eurospeech的最佳論文獎。
吳軍博士于XX年加入google公司,現(xiàn)任google研究院資深研究員。到google不久,他和三個同事們開創(chuàng)了網(wǎng)絡(luò)搜索反作弊的研究領(lǐng)域,并因此獲得工程獎。XX年,他和兩個同事共同成立了中日韓文搜索部門。吳軍博士是當(dāng)前google中日韓文搜索算法的主要設(shè)計者。在google其間,他領(lǐng)導(dǎo)了許多研發(fā)項目,包括許多與中文相關(guān)的產(chǎn)品和自然語言處理的項目,并得到了公司首席執(zhí)行官埃里克.施密特的高度評價。吳軍博士在國內(nèi)外發(fā)表過數(shù)十篇論文并獲得和了近十項美國和國際專利。他于XX年起,當(dāng)選為約翰霍普金斯大學(xué)計算機系董事會董事。
正是他在信息檢索與自然語言處理領(lǐng)域中的一系列工作,使他講述了我所看到的內(nèi)容-數(shù)學(xué)之美。
看了數(shù)學(xué)之美,立即聯(lián)想到了金庸小說中的武林高人,總是把一套大多數(shù)人都會的入門功夫使得威力無比,擊潰眾多敵者。東西放在那,它的威力如何,并鍵在于使用者,武術(shù)如此,數(shù)學(xué)同樣如此。
于我而言,語音視別是一類高科技,作為非專業(yè)人土,深覺高奧。但看完數(shù)學(xué)之美之后,頓感驚詫,原來如此深奧東西的解決方法自己也學(xué)過,并且理工科讀過大學(xué)的人都學(xué)過,那就是統(tǒng)計學(xué)中的條件概率p(a/b),即b事件發(fā)生條件下a事件發(fā)生的概率。
如果s表示一連串特定順序排列的詞w1,w2,…,wn,換句話說,s可以表示某一個由一連串特定順序排練的詞而組成的一個有意義的句子。現(xiàn)在,機器對語言的識別從某種角度來說,就是想知道s在文本中出現(xiàn)的可能性,也就是數(shù)學(xué)上所說的s的概率用p(s)來表示。利用條件概率的公式,s這個序列出現(xiàn)的概率等于每一個詞出現(xiàn)的概率相乘,于是p(s)可展開為:
p(s)=p(w1)p(w2|w1)p(w3|w1w2)…p(wn|w1w2…wn-1)
其中p(w1)表示第一個詞w1出現(xiàn)的概率;p(w2|w1)是在已知第一個詞的前提下,第二個詞出現(xiàn)的概率;以次類推。不難看出,到了詞wn,它的出現(xiàn)概率取決于它前面所有詞。從計算上來看,各種可能性太多,無法實現(xiàn)。因此我們假定任意一個詞wi的出現(xiàn)概率只同它前面的詞wi-1有關(guān)(即馬爾可夫假設(shè)),于是問題就變得很簡單了。現(xiàn)在,s出現(xiàn)的概率就變?yōu)椋?/p>
p(s)=p(w1)p(w2|w1)p(w3|w2)…p(wi|wi-1)…
(當(dāng)然,也可以假設(shè)一個詞又前面n-1個詞決定,模型稍微復(fù)雜些。)
接下來的問題就是如何估計p(wi|wi-1)。現(xiàn)在有了大量機讀文本后,這個問題變得很簡單,只要數(shù)一數(shù)這對詞(wi-1,wi)在統(tǒng)計的文本中出現(xiàn)了多少次,以及wi-1本身在同樣的文本中前后相鄰出現(xiàn)了多少次,然后用兩個數(shù)一除就可以了,p(wi|wi-1)=p(wi-1,wi)/p(wi-1)。