然而新的疑問旋即出現在伊芙·卡莉的腦海之中。
這個南風APP的開發(fā)者究竟是怎么搞定這種姑且被叫做“生成式摘要算法”的全新算法呢?
所謂的生成式摘要算法這樣類似的依托于神經網絡的摘要算法他們的開發(fā)團隊之前也曾經涉獵過。
當時他們將這種算法稱為“概括式摘要算法”,可是這種算法經過他們小組多輪測試實際表現并不理想。
雖然這種概括式或者叫生成式文本摘要的摘要算法能夠產生原文中沒有出現過的表達,相比于抽取式摘要算法更加靈活。
但也正因此生成式摘要更容易產生事實性錯誤,這些錯誤既包括與原文信息相違背的內容,又包括與人們的常識相違背的內容。
除此之外,這種生成式文本摘要算法在應付長新聞時很容易表現出明顯的疲軟乏力。
雖然將這種生成式摘要算法和抽取式摘要算法放到一起的話會改善生成式摘要算法處理新聞長度的能力。
但經過測試,沒有生成式摘要算法拖油瓶,抽取式摘要算法反而能夠表現的更加理想。
為了穩(wěn)妥起見,伊芙·卡莉所在的團隊最終還是選擇通過進一步強化抽取式文本摘要的速度和準確度這一傳統(tǒng)文本摘要方向。
一個曾經被他們遺棄的方向,卻被別人重新拾起?
聽起來有點不可思議,但是事實就是南風APP的開發(fā)者不但重新拾起他們曾經遺棄的研究方向,反而做的比他們更優(yōu)秀,可以說是狠狠打臉了。
伊芙·卡莉有點困惑,她怎么也想不通南風APP的開發(fā)者究竟是怎么在他們認為行不通的方向趟出一條道的。
但有一點可以肯定,南風APP的開發(fā)者雖然用的也是跟概括/生成式算法相類似的算法,但具體到生成式算法本身至少要比他們當初做的那個生成式算法先進一代。
盡管心中困惑加上狠狠被打臉,但伊芙·卡莉并沒有表現出很情緒化,至少沒有如同尼克在信中表現的那樣情緒化。
多年的研究生涯早就養(yǎng)成了伊芙·卡莉寵辱不驚的理性性格。
再者科技方面的進步原本就是此起彼伏。
如果因為一時的得失就患得患失,那還不如盡早換行。
多余的情感波動非但沒有必要,反而會影響理智的判斷。
深入體驗南風APP,伊芙·卡莉不得不承認,雖然這款APP很像是臨時拿翻譯軟件過來湊數的,但核心算法確實很強。
甚至一如這款軟件宣傳標語所說的那樣——“地表最強”。
除此之外這款軟件宣稱的摘要速度與摘要準確度碾壓同類軟件也所言非虛。
等等,想起南風APP這款軟件宣傳標語中著重強調的“準確度”,伊芙·卡莉突然想到了什么。
現在的新聞摘要軟件算法在宣傳方面都是強調速度的,很少又在準確度方面大談特談的。
倒不是因為準確度在新聞摘要方面不重要,恰恰相反,準確度在新聞摘要這方面極其重要,可以說準確度是衡量一個摘要算法堪不堪用最根本的因素,但各種摘要算法很少有對精確度進行極其精確的量化宣傳的。
原因無它,因為現在業(yè)內對準確度的衡量缺乏一個統(tǒng)一的標準。
聽起來很不可思議,但是事實如此,評估一篇摘要的準確度看似很容易,但其實這是一件比較困難的任務。
對于一篇摘要的衡量而言,很難說有標準答案,不同于很多擁有客觀評判標準的任務,摘要的評判一定程度上依賴主觀判斷。
在摘要任務中,有關于語法正確性、語言流暢性、關鍵信息完整度等衡量摘要準確度的標準都缺乏一個統(tǒng)一的標尺。
在現今評估自動文本摘要質量的兩種方法:人工評價方法和自動評價方法。
人工評估就是邀請若干專家人為制定標準進行人工評定,這種方法比較接近人的閱讀感受。
但是耗時耗力,不但無法用于對大規(guī)模自動文本摘要數據的評價,和自動文本摘要的應用場景也并不符合。
最關鍵的是以擁有主觀思想的人進行摘要的評價的話,很容易出現偏差,畢竟一千個人眼里有一千個哈姆雷特,每個人對新聞摘要的衡量都有自己的準繩,或許一個衡量團隊可以制定一個統(tǒng)一的衡量標準,但換一個衡量團隊很可能衡量標準便不一樣。
這就很容易導致在評判準確度的時候因為評判團隊的不同,同一次的摘要結果會得到截然不同的評價。
評判團隊千差萬別,很容易導致一些明明有實力做好算法的團隊卻因為評判團隊拉跨出師未捷身先死。
伊芙·卡莉他們團隊的文本摘要算法之前一度能夠在全球領先。
跟他們和牛津、哈佛、耶魯三所大學的語言學方面深度合作有著很大的關系。
但這終究不是長久之計,人工的評估方法因其固有的局限性注定了走不遠。
因此,文本摘要算法研究團隊積極地研究自動評價方法。
自上世紀九十年代末開始,一些會議或組織開始致力于制定摘要評價的標準,他們也會參與評價一些自動文本摘要。
比較著名的會議或組織包括SUMMAC、DUC、TAC(Text Analysis Conference)等。
盡管相關的團隊在積極研究自動評價方法,在現今評估自動文本摘要質量的兩種方法(人工評價方法和自動評價方法)還是以人工評價方法這個評估方法最為常用。
很多自動評價方法的原理主要是將摘要算法生成的新聞摘要和參考摘要進行比較通過最大擬合程度來進行評價。
這個評價的過程雖然是自動的,但參考摘要卻是人工撰寫的。
也就是說即便是所謂的自動評價方法,也擺脫不了主觀因素的介入。
那樣的話何苦多費一遍功夫用什么自動評價方法?
也正因為如此很多團隊在評估摘要質量時選擇的方式依舊是人工評估。
而人工評估這種主觀東西就很難對結果進行客觀的量化。
正因為這種情況,盡管之前不少團隊摘要算法準確度都還算不錯。
但涉及到新聞摘要準確度方面的宣傳,大家都選擇性的遺忘了。
就這種情況下,為什么南風APP的開發(fā)者在軟件介紹中卻言之鑿鑿地稱這款軟件準確度比同類軟件高出270%。
這個所謂的270%究竟是基于什么標準去衡量的呢?