第五十一章 注意力即所有
老趙那邊非常利索地把服務(wù)器的賬號(hào)密碼發(fā)了過(guò)來(lái),順便還非常貼心地把江大自己開(kāi)發(fā)的服務(wù)器登錄器也發(fā)了一個(gè)過(guò)來(lái)。
蘇飛按照Linux系統(tǒng)的操作命令,先登陸上去看了看配置,這不看不知道,一看嚇一跳。
老趙分給他的這臺(tái)服務(wù)器插了四張顯卡,清一色的3080ti,蘇飛查了下型號(hào),這一張就得近萬(wàn),而作為核心與這四張顯卡協(xié)同運(yùn)算的cpu那就更了不得了。
他不由得有些感嘆,老趙啊老趙,你年輕的時(shí)候是得多大牛,這都退居二線了,手里還富得流油。
蘇飛敢打包票,就這四張3080ti的配置,就能抵得上江大不少教授實(shí)驗(yàn)室的資源了。
不過(guò)這四張卡有兩張已經(jīng)在運(yùn)作了,估計(jì)是其他學(xué)生申請(qǐng)了學(xué)校的服務(wù)器,在跑實(shí)驗(yàn)。
既然有了這種配置,蘇飛也算是有底氣了,他根據(jù)自己的模型單元構(gòu)建起了一個(gè)模型結(jié)構(gòu),然后挑選了人工智能領(lǐng)域中非常典型及復(fù)雜的任務(wù),機(jī)器翻譯。
其實(shí)就是語(yǔ)言翻譯,目前為止使用的各種翻譯軟件其核心技術(shù)就是基于機(jī)器翻譯。
這其實(shí)還是自然語(yǔ)言處理領(lǐng)域,但又不局限于自然語(yǔ)言處理,因?yàn)闄C(jī)器翻譯是公認(rèn)的大數(shù)據(jù)訓(xùn)練,其訓(xùn)練的復(fù)雜度和圖領(lǐng)域不相上下,這也就代表著這個(gè)實(shí)驗(yàn)任務(wù)能在很大程度上反應(yīng)論文模型在人工智能領(lǐng)域的性能。
而蘇飛思前想后,決定采取現(xiàn)在國(guó)際上公認(rèn)的兩個(gè)機(jī)器翻譯標(biāo)準(zhǔn)任務(wù),將英語(yǔ)翻譯成德語(yǔ)以及法語(yǔ)的BLEU任務(wù)和WMT任務(wù),這兩個(gè)翻譯任務(wù)是目前最有說(shuō)服力的實(shí)驗(yàn),現(xiàn)在甚至有一個(gè)實(shí)時(shí)榜單專門對(duì)這兩個(gè)任務(wù)打榜,在人工智能領(lǐng)域幾乎無(wú)人不知無(wú)人不曉。
所以,蘇飛要在最有公信力的任務(wù)上下手,做到一擊斃命。
在他熬夜修仙兩天后,終于辛辛苦苦把自己的模型構(gòu)建出來(lái)了,但應(yīng)用到這倆任務(wù)上去時(shí),他卻傻眼了。
“臥槽,這訓(xùn)練一輪就得半小時(shí)?”
要知道,人工智能領(lǐng)域的訓(xùn)練輪數(shù)都是1000次打底,像機(jī)器翻譯這種2000次都是常態(tài)的。
“這起碼得4、50天才能訓(xùn)完啊……”
這簡(jiǎn)直就離譜,一篇論文耗時(shí)最長(zhǎng)的居然是任務(wù)訓(xùn)練,而最為核心的模型構(gòu)建只花了幾天時(shí)間。
而且,在訓(xùn)練中途出了啥岔子,比如說(shuō)有其他同學(xué)一不小心占用了他這張顯卡的計(jì)算資源,導(dǎo)致程序崩潰,他的模型數(shù)據(jù)一旦沒(méi)保存下來(lái),那就得重新訓(xùn)練。
還有一個(gè)很重要的問(wèn)題是,萬(wàn)一訓(xùn)練出來(lái)的性能沒(méi)有想象中的好,蘇飛還得調(diào)節(jié)參數(shù),再訓(xùn)練一次,這時(shí)間跨度就未免太長(zhǎng)了。
蘇飛思考良久,只得又去找VX里的那個(gè)中年禿頭大叔。
【老趙,能不能再給我臺(tái)服務(wù)器。】
【咋滴了,剛給你的那臺(tái)服務(wù)器出啥岔子了?】
【顯卡有些不夠用?!?p> 【要幾張顯卡?!?p> 蘇飛想要在一周左右訓(xùn)練完,這么一算……
【8張3080ti?!?p> 那邊發(fā)來(lái)一個(gè)小企鵝頭掉了的表情包。
【你當(dāng)我是提款童子?前天不剛讓你給我低調(diào)點(diǎn)?!】
【那6張也行?!?p> 兩三周以內(nèi)也能接受哇。
【還也行?滾!】
【老趙,你知不知道你現(xiàn)在冰冷的話語(yǔ)正扼殺一個(gè)跨時(shí)代的造物!】
蘇飛發(fā)了一張痛心疾首.jpg。
對(duì)面直接發(fā)了一張滾.jpg。
最終,二人溝通協(xié)商數(shù)次,老趙敲定了一個(gè)方案。
老趙會(huì)用管理員權(quán)限把所有其他賬號(hào)凍結(jié)一個(gè)月,只保留蘇飛的賬號(hào),這樣給蘇飛的那臺(tái)服務(wù)器的四張顯卡就只能由蘇飛使用,也不需要擔(dān)心其他人一不小心占用了資源導(dǎo)致程序崩潰,因?yàn)閴焊鶝](méi)其他人了。
當(dāng)然,想要使用這臺(tái)服務(wù)器的其他同學(xué)會(huì)被安排到其他服務(wù)器去,老趙順便會(huì)幫他們把數(shù)據(jù)也一起轉(zhuǎn)移過(guò)去。
這樣一來(lái),蘇飛用四張卡同時(shí)訓(xùn)練,十幾天應(yīng)該就能搞定。
老趙,還是靠譜兒,蘇飛決定之后這篇論文發(fā)表成功,一定要好好報(bào)答報(bào)答老趙。
在得到老趙的全力支持后,蘇飛也是起飛了,把訓(xùn)練程序往四張顯卡上一扔,他就完全撒手不管了。
有句話怎么說(shuō)來(lái)著,要讓你的錢比你更努力地工作?
在深度學(xué)習(xí)領(lǐng)域,要讓的顯卡比你更努力地工作!
…
…
既然訓(xùn)練程序的問(wèn)題已經(jīng)解決了,蘇飛便直接開(kāi)始動(dòng)筆寫(xiě)論文了。
雖然訓(xùn)練結(jié)果還沒(méi)出來(lái),但蘇飛相信這個(gè)模型的性能絕對(duì)不會(huì)差,到時(shí)候結(jié)果出來(lái)了直接把數(shù)據(jù)填上去,就能直接發(fā)表了。
什么?萬(wàn)一性能很差?
這是看不起系統(tǒng)的靈感激發(fā)卡嗎?
狗系統(tǒng)雖然很狗,經(jīng)常發(fā)布一些奇奇怪怪的任務(wù),但靈感激發(fā)卡的功效也是實(shí)打?qū)嵉摹?p> 在撰寫(xiě)論文題目的時(shí)候,蘇飛一字一頓地打上標(biāo)題。
【注意力即所有(Attention is all you need)】
這種有些狂妄的論文標(biāo)題很像是一些初出茅廬的小子,不知天高地厚而一時(shí)中二取的標(biāo)題。
蘇飛的確是初出茅廬的小子,但他堅(jiān)信,以注意力機(jī)制構(gòu)建的模型單元擔(dān)得起這個(gè)論文題目。
【目前的主流模型結(jié)構(gòu)都是基于復(fù)雜的循環(huán)神經(jīng)網(wǎng)絡(luò)或者卷積神經(jīng)網(wǎng)絡(luò)而構(gòu)造的編碼器-解碼器架構(gòu)。如果在編碼器-解碼器架構(gòu)中再加一層注意力機(jī)制,那么這個(gè)模型的性能就會(huì)變得更好?!?p> 【但是,迄今為止從沒(méi)有人僅用注意力機(jī)制構(gòu)建出一個(gè)編碼器-解碼器架構(gòu)的模型。本文提出一個(gè)新的模型,其舍棄主流的模型架構(gòu),單純采用注意力機(jī)制,并引入多頭注意力機(jī)制與位置向量的概念解決目前注意力機(jī)制中的兩個(gè)難點(diǎn),其具體的模型構(gòu)造為……】
【……基于上述的理論,此模型并不局限于自然語(yǔ)言處理領(lǐng)域,其獨(dú)特的并行運(yùn)算結(jié)構(gòu)能適用于人工智能領(lǐng)域的任何問(wèn)題,并且大大提升訓(xùn)練速度,因此,本文將該模型命名為變壓器(Transformer)?!?p> 這也算蘇飛的一個(gè)小趣味,Transformer在英文中不止是變壓器,更有變形金剛的意思,而這個(gè)模型的確就如同變形金剛一樣,非常靈活多變,能適應(yīng)各種任務(wù)。
我愛(ài)西瓜書(shū)
感謝各位的支持呀! 求追讀、收藏和投資! 感謝炫懿磊大佬的打賞!