網(wǎng)上有很多關(guān)于智能pos機(jī)結(jié)構(gòu)設(shè)計(jì),從經(jīng)典結(jié)構(gòu)到改進(jìn)方法的知識(shí),也有很多人為大家解答關(guān)于智能pos機(jī)結(jié)構(gòu)設(shè)計(jì)的問(wèn)題,今天pos機(jī)之家(www.dsth100338.com)為大家整理了關(guān)于這方面的知識(shí),讓我們一起來(lái)看下吧!
本文目錄一覽:
1、智能pos機(jī)結(jié)構(gòu)設(shè)計(jì)
智能pos機(jī)結(jié)構(gòu)設(shè)計(jì)
選自arXiv
作者:Kun Jing、Jungang Xu
機(jī)器之心編譯
參與:Geek AI、張倩
作為自然語(yǔ)言處理(NLP)系統(tǒng)的核心組成部分,語(yǔ)言模型可以提供詞表征和單詞序列的概率化表示。神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型(NNLM)克服了維數(shù)的限制,提升了傳統(tǒng)語(yǔ)言模型的性能。本文對(duì) NNLM 進(jìn)行了綜述,首先描述了經(jīng)典的 NNLM 的結(jié)構(gòu),然后介紹并分析了一些主要的改進(jìn)方法。研究者總結(jié)并對(duì)比了 NNLM 的一些語(yǔ)料庫(kù)和工具包。此外,本文還討論了 NNLM 的一些研究方向。
什么是語(yǔ)言模型
語(yǔ)言模型(LM)是很多自然語(yǔ)言處理(NLP)任務(wù)的基礎(chǔ)。早期的 NLP 系統(tǒng)主要是基于手動(dòng)編寫(xiě)的規(guī)則構(gòu)建的,既費(fèi)時(shí)又費(fèi)力,而且并不能涵蓋多種語(yǔ)言學(xué)現(xiàn)象。直到 20 世紀(jì) 80 年代,人們提出了統(tǒng)計(jì)語(yǔ)言模型,從而為由 N 個(gè)單詞構(gòu)成的序列 s 分配概率,即:
其中 w_i 代表序列 s 中的第 i 個(gè)單詞。一個(gè)單詞序列的概率可以被分解為在給定下一個(gè)單詞前項(xiàng)(通常被稱為上下文歷史或上下文)的條件下,與下一個(gè)單詞的條件概率的乘積。
考慮到很難對(duì)上述模型中超多的參數(shù)進(jìn)行學(xué)習(xí),有必要采取一種近似方法。N 元(N-gram)模型是一種最為廣泛使用的近似方法,并且在 NNLM 出現(xiàn)之前是最先進(jìn)的模型。一個(gè)(k+1)元模型是由 k 階馬爾科夫假設(shè)推導(dǎo)出的。該假設(shè)說(shuō)明當(dāng)前的狀態(tài)僅僅依賴于前面的 k 個(gè)狀態(tài),即:
我們用極大似然估計(jì)來(lái)估計(jì)參數(shù)。
困惑度(PPL)[Jelinek et al., 1977] 是一種用來(lái)衡量一個(gè)概率模型質(zhì)量的信息論度量標(biāo)準(zhǔn),是評(píng)價(jià)語(yǔ)言模型的一種方法。PPL 越低說(shuō)明模型越好。給定一個(gè)包含 N 個(gè)單詞的語(yǔ)料庫(kù)和一個(gè)語(yǔ)言模型,該語(yǔ)言模型的 PPL 為:
值得注意的是,PPL 與語(yǔ)料庫(kù)相關(guān)??梢杂?PPL 在同一個(gè)語(yǔ)料庫(kù)上對(duì)兩個(gè)或多個(gè)語(yǔ)言模型進(jìn)行對(duì)比。
為什么要給 LM 加上神經(jīng)網(wǎng)絡(luò)?
然而,N 元語(yǔ)言模型有一個(gè)明顯的缺點(diǎn)。為了解決這個(gè)問(wèn)題,我們?cè)趯⑸窠?jīng)網(wǎng)絡(luò)(NN)引入到了連續(xù)空間的語(yǔ)言建模中。NN 包括前饋神經(jīng)網(wǎng)絡(luò)(FFNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),可以自動(dòng)學(xué)習(xí)特征和連續(xù)的表征。因此,人們希望將 NN 應(yīng)用于 LM,甚至其他的 NLP 任務(wù),從而考慮自然語(yǔ)言的離散性、組合性和稀疏性。
第一個(gè)前饋神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型(FFNNLM)由 Bengio 等人于 2003 年提出,它通過(guò)學(xué)習(xí)一個(gè)單詞的分布式表征(將單詞表征為一個(gè)被稱為「嵌入」的低維向量)來(lái)克服維數(shù)詛咒。FFNNLM 的性能要優(yōu)于 N 元語(yǔ)言模型。隨后,Mikolov 等人于 2010 年提出了 RNN 語(yǔ)言模型(RNNLM)。從那時(shí)起,NNLM 逐漸成為了主流的語(yǔ)言模型,并得到了迅速發(fā)展。
2012 年,Sundermeyer 等人提出了長(zhǎng)短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型(LSTM-RNNLM)用于解決學(xué)習(xí)長(zhǎng)期依賴的問(wèn)題。為了降低訓(xùn)練、評(píng)估以及 PPL 的開(kāi)銷,人們提出了各種各樣的改進(jìn)方案,例如分層的 Softmax、緩存(caching)模型等。最近,為了改進(jìn) NNLM,人們引入了注意力機(jī)制,取得了顯著的性能提升。
經(jīng)典的神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型
FFNN 語(yǔ)言模型
Xu 和 Rudnicky 等人于 2000 年試圖將神經(jīng)網(wǎng)絡(luò)(NN)引入到語(yǔ)言模型(LM)中。盡管他們的模型性能比基線 N 元模型語(yǔ)言模型要好,但是由于沒(méi)有隱藏層,他們模型的泛化能力較差,無(wú)法捕獲上下文相關(guān)特征。
根據(jù)公式 1,LM 的目標(biāo)等價(jià)于對(duì)條件概率 P(w_k|w_1 · · · w_(k?1)) 進(jìn)行估計(jì)。但是前饋神經(jīng)網(wǎng)絡(luò)(FFNN)不能直接處理變長(zhǎng)數(shù)據(jù)(variable-length data),也不能夠有效地表征歷史上下文。因此,對(duì)于像 LM 這樣的序列建模任務(wù),F(xiàn)FNN 必須使用定長(zhǎng)的輸入。受到 N 元語(yǔ)言模型的啟發(fā)(見(jiàn)公式 2),F(xiàn)FNNLM 將前 n-1 個(gè)單詞作為了預(yù)測(cè)下一個(gè)單詞的上下文。
如圖 1 所示,Bengio 等人于 2003 年提出了原始 FFNNLM 的架構(gòu)。這個(gè) FFNNLM 可以寫(xiě)作:
其中,H、U 和 W 是層與層之間連接的權(quán)重矩陣;d 和 b 是隱藏層和輸出層的偏置。
圖 1:Bengio 等人于 2003 年提出的 FFNNLM。
FFNNLM 通過(guò)為每個(gè)單詞學(xué)習(xí)一個(gè)分布式表征來(lái)實(shí)現(xiàn)在連續(xù)空間上的建模。單詞表征是語(yǔ)言模型的副產(chǎn)品,它往往被用于改進(jìn)其它的 NLP 任務(wù)。基于 FFNNLM,Mikolov 等人于 2013 提出了兩種詞表征模型:「CBOW」和「Skip-gram」。FFNNLM 通過(guò)將單詞轉(zhuǎn)換為低維向量克服了維數(shù)詛咒。FFNNLM 引領(lǐng)了 NNLM 研究的潮流。
然而,F(xiàn)FNNLM 仍然具有一些缺點(diǎn)。在訓(xùn)練前指定的上下文大小是有限的,這與人類可以使用大量的上下文信息進(jìn)行預(yù)測(cè)的事實(shí)是嚴(yán)重不符的。序列中的單詞是時(shí)序相關(guān)的。而 FFNNLM 沒(méi)有使用時(shí)序信息進(jìn)行建模。此外,全連接 NN 需要學(xué)習(xí)許多可訓(xùn)練的參數(shù),即使這些參數(shù)的數(shù)量比 N 元 少,但是仍然具有很大的計(jì)算開(kāi)銷,十分低效。
RNN 語(yǔ)言模型
第一個(gè) RNN 語(yǔ)言模型由 [Mikolov et al., 2010; Mikolov et al., 2011a] 提出,如圖 2 所示,在第 t 個(gè)時(shí)間步,RNNLM 可以寫(xiě)作:
其中 U、W、V 是權(quán)值矩陣;b、d 分別是狀態(tài)層和輸出層的偏置。在 Mikolov 2010 年和 2011 年發(fā)表的論文中,f 代表 sigmoid 函數(shù),g 代表 Softmax 函數(shù)。RNNLM 可以通過(guò)基于時(shí)間的反向傳播算法(BPTT)或截?cái)嗍?BPTT 算法來(lái)訓(xùn)練。根據(jù)他們的實(shí)驗(yàn)結(jié)果,RNNLM 在困惑度(PPL)方面要顯著優(yōu)于 FFNNLM 和 N 元語(yǔ)言模型。
圖 2:Mikolov 等人于 2010 年和 2011 年提出的 RNNLM。
盡管 RNNLM 可以利用素有的上下文進(jìn)行預(yù)測(cè),但是訓(xùn)練模型學(xué)習(xí)長(zhǎng)期依賴仍然是一大挑戰(zhàn)。這是因?yàn)?,?RNN 的訓(xùn)練過(guò)程中,參數(shù)的梯度可能會(huì)發(fā)生梯度消失或者梯度爆炸,導(dǎo)致訓(xùn)練速度變慢或使得參數(shù)值無(wú)窮大。
LSTM-RNN 語(yǔ)言模型
長(zhǎng)短期記憶(LSTM)RNN 解決了這個(gè)問(wèn)題。Sundermeyer 等人于 2012 年將 LSTM 引入到了 LM 中,并且提出了 LSTM-RNNLM。除了記憶單元和 NN 的部分,LSTM-RNNLM 的架構(gòu)幾乎與 RNNLM 是一樣的。為了控制信息的流動(dòng),他們將三種門結(jié)構(gòu)(包括輸入門、輸出門和遺忘門)加入到了 LSTM 的記憶單元中。LSTM-RNNLM 的常規(guī)架構(gòu)可以寫(xiě)作:
其中,i_t,f_t,o_t 分別代表輸入門、遺忘門和輸出門。c_t 是單元的內(nèi)部記憶狀態(tài)。s_t 是隱藏狀態(tài)單元。U_i、U_f、U_o、U、W_i、W_f、W_o、W、V_i、V_f、V_o 以及 V 都是權(quán)值矩陣。b_i、b_f、b_o、b 以及 d 是偏置。f 是激活函數(shù),σ 是各個(gè)門的激活函數(shù)(通常為 sigmoid 函數(shù))。
對(duì)比上述三種經(jīng)典的 LM,RNNLM(包括 LSTM-RNNLM)的性能要優(yōu)于 FFNNLM,而且 LSTM-RNNLM 一直是最先進(jìn)的 LM。當(dāng)下的 NNLM 主要都是以 RNN 或 LSTM 為基礎(chǔ)的。
改進(jìn)的技術(shù)
降低困惑度的方法
為了降低困惑度,人們將一些新的結(jié)構(gòu)和更有效的信息引入到了經(jīng)典的 NNLM 模型中(尤其是 LSTM-RNNLM)。受到語(yǔ)言學(xué)和人類處理自然語(yǔ)言的方式的啟發(fā),研究者們提出了一些新的、有效的方法,包括基于字符的(character-aware)模型、因式分解模型、雙向模型、緩存模型、注意力機(jī)制,等等。
基于字符的(Character-Aware)模型
在自然語(yǔ)言中,一些形式相似的詞往往具有相同或相似的意思。例如,「superman」中的「man」和「policeman」中的「man」有著相同的含義。Mikolov 等人于 2012 年在字符級(jí)別上對(duì) RNNLM 和 FFNNLM 進(jìn)行了探究。字符級(jí) NNLM 可以被用來(lái)解決集外詞(OOV)問(wèn)題,由于字符特征揭示了單詞之間的結(jié)構(gòu)相似性,因此對(duì)不常見(jiàn)和未知單詞的建模有所改進(jìn)。由于使用了帶有字符級(jí)輸出的小型 Softmax 層,字符級(jí) NNLM 也減少了訓(xùn)練參數(shù)。然而,實(shí)驗(yàn)結(jié)果表明,訓(xùn)練準(zhǔn)確率高的字符級(jí) NNLM 是一項(xiàng)具有挑戰(zhàn)性的工作,其性能往往不如單次級(jí)的 NNLM。這是因?yàn)樽址?jí) NNLM 必須考慮更長(zhǎng)的歷史數(shù)據(jù)才能正確地預(yù)測(cè)下一個(gè)單詞。
人們已經(jīng)提出了許多將字符級(jí)和單詞級(jí)信息相結(jié)合的解決方案,它們通常被稱為基于字符(character-aware)的語(yǔ)言模型。一種方法是逐個(gè)單詞組織字符級(jí)特征,然后將它們用于單詞級(jí)語(yǔ)言模型。Kim 等人于 2015 年提出了用于提取單詞字符級(jí)特征的卷積神經(jīng)網(wǎng)絡(luò)以及用于在一個(gè)時(shí)間步內(nèi)接收這些字符級(jí)特征的 LSTM。Hwang 和 Sung 于 2016 年使用一個(gè)分層 RNN 架構(gòu)解決了字符級(jí) NNLM 的問(wèn)題,該架構(gòu)包含具有不同時(shí)間規(guī)模的多個(gè)模塊。
另一種解決方案是同時(shí)將字符級(jí)別和單詞級(jí)別的特征輸入給 NNLM。Miyamoto 和 Cho 等人于 2016 年提出使用 BiLSTM 從單詞中提取出的字符特征向量對(duì)單詞的特征向量進(jìn)行插值,并且將插值向量輸入給 LSTM。Verwimp 等人于 2017 年提出了一種「字符-單詞」LSTM-RNNLM,它直接將字符和單詞級(jí)別的特征向量連接起來(lái),然后將連接結(jié)果輸入給網(wǎng)絡(luò)?;谧址?LM 直接使用字符級(jí) LM 作為字符特征提取器,應(yīng)用于單詞級(jí) LM。這樣一來(lái),LM 就具有豐富的用于預(yù)測(cè)的「字符-單詞」信息。
因式分解模型
NNLM 基于 token 定義了單詞的相似度。然而,相似度還可以根據(jù)單詞的形式特征(詞綴、大寫(xiě)字母、連字符,等等)或者其它的注釋(如詞性標(biāo)注(POS))導(dǎo)出。受到因式分解 LM 的啟發(fā),Alexandrescu 和 Kirchhoff 等人于 2016 年提出了一種因式分解 NNLM,這是一種新型的神經(jīng)概率 LM,它可以學(xué)習(xí)從單詞和特定的單詞特征到連續(xù)空間的映射。
因式分解模型使得模型可以總結(jié)出具有相同特征的單詞類別。在神經(jīng)網(wǎng)絡(luò)訓(xùn)練時(shí)應(yīng)用因子代替單詞 token 可以更好地學(xué)習(xí)單詞的連續(xù)表征,可以表征集外詞,也可以降低 LM 的困惑度。然而,對(duì)不同的因子的選擇和不同的上游 NLP 任務(wù)、語(yǔ)言模型的應(yīng)用是相關(guān)的。除了對(duì)各個(gè)因子分別進(jìn)行實(shí)驗(yàn)外,沒(méi)有其他方法可以用于因子的選擇。因此,對(duì)于特定的任務(wù),需要有一種高效的因子選擇方法。同時(shí),必須建立帶有因子標(biāo)簽的語(yǔ)料庫(kù)。
雙向模型
傳統(tǒng)的單向 NN 只能根據(jù)過(guò)去的輸入預(yù)測(cè)輸出。我們可以以未來(lái)的數(shù)據(jù)為條件,建立一個(gè)雙向的 NN。Graves 等于 2013 年、Bahdanau 等人于 2014 年將雙向 RNN 和 LSTM 神經(jīng)網(wǎng)絡(luò)(BiRNN 和 BiLSTM)引入了語(yǔ)音識(shí)別或其它的 NLP 任務(wù)。BiRNN 通過(guò)在兩個(gè)方向處理輸入數(shù)據(jù)來(lái)使用過(guò)去和未來(lái)的上下文。目前雙向模型最火的工作當(dāng)屬 Peter 等人于 2018 年提出的 ELMo 模型,這是一種基于 BiLSTM-RNNLM 的新型深度上下文單詞表示。預(yù)訓(xùn)練的 ELMo 模型的嵌入層的向量是通過(guò)詞匯表中的單詞學(xué)習(xí)到的表征向量。這些表征被添加到了現(xiàn)有的模型的嵌入層中,并且在 6 個(gè)具有挑戰(zhàn)性的 NLP 任務(wù)中顯著提升了目前最先進(jìn)的模型的性能。
盡管使用過(guò)去和未來(lái)的上下文的雙向語(yǔ)言模型(BiLM)已經(jīng)取得了進(jìn)展,但仍然需要注意的是,BiLM 不能夠被直接用于 LM,這是因?yàn)?LM 是定義在當(dāng)前單詞之前的上下文中的。由于單詞序列可以被視為一種同時(shí)輸入的序列,因此 BiLM 可以被用于其它的 NLP 任務(wù)(如機(jī)器翻譯、語(yǔ)音識(shí)別)。
緩存模型
「最新出現(xiàn)的單詞可能會(huì)再次出現(xiàn)」?;谶@個(gè)假設(shè),緩存機(jī)制最初被用于優(yōu)化 N 元語(yǔ)言模型,克服了對(duì)依賴的長(zhǎng)度限制。該機(jī)制會(huì)在緩存中匹配新的輸入和歷史數(shù)據(jù)。緩存機(jī)制最初是為了降低 NNLM 的困惑度而提出的。Soutner 等人于 2012 年試圖將 FFNNLM 與緩存機(jī)制相結(jié)合,提出了基于緩存的 NNLM 結(jié)構(gòu),導(dǎo)致了離散概率變化問(wèn)題。為了解決這個(gè)問(wèn)題,Grave 等人于 2016 年提出了連續(xù)的緩存模型,其中變化依賴于隱藏表征的內(nèi)積。
另一種緩存機(jī)制是將緩存用作 NNLM 的加速技術(shù)。該方法主要的思路是將 LM 的輸出和狀態(tài)存儲(chǔ)在一個(gè)哈希表中,用來(lái)在給定相同上下文歷史的條件下進(jìn)行未來(lái)的預(yù)測(cè)。例如,Huang 等人于 2014 年提出使用 4 個(gè)緩存來(lái)加速模型推理。使用到的緩存分別為:「查詢到語(yǔ)言模型概率的緩存(Query to Language Model Probability Cache)」、「歷史到隱藏狀態(tài)向量的緩存(History to Hidden State Vector Cache)」、「歷史到分類歸一化因子的緩存(History to Class Normalization Factor Cache)」以及「歷史和分類 Id 到子詞匯表歸一化因子的緩存(History and Class Id to Sub-vocabulary Normalization Factor Cache)」。
注意力機(jī)制
RNNLM 利用上下文預(yù)測(cè)下一個(gè)單詞。然而,并非上下文中所有的單詞都與下一個(gè)相關(guān)、對(duì)于預(yù)測(cè)有效。和人類一樣,帶有注意力機(jī)制的 LM 通過(guò)從單詞中選擇出有用的單詞表征,高效地使用長(zhǎng)期的歷史。Bahdanau 等人于 2014 年首次提出將注意力機(jī)制用于 NLP 任務(wù)(在他們的論文中是機(jī)器翻譯任務(wù))。Tran 等人和 Mei 等人分別于 2016 年證明了注意力機(jī)制可以提升 RNNLM 的性能。
注意力機(jī)制可以通過(guò)一系列針對(duì)每個(gè)輸入的注意力系數(shù)捕獲需要被重點(diǎn)關(guān)注的目標(biāo)區(qū)域。注意力向量 z_t 是通過(guò) token 的表征 {r_0,r_1,· · ·,r_(t?1)} 來(lái)計(jì)算的。
這里的注意力系數(shù)α_ti 是通過(guò)得分 e_ti 的 Softmax 函數(shù)值歸一化計(jì)算得來(lái)的,其中
這是一個(gè)對(duì)齊模型,用于評(píng)估某個(gè) token 的表征 r_i 和隱藏狀態(tài) h_(t-1) 的匹配程度。該注意力向量是用于預(yù)測(cè)的上下文歷史的一種很好的表征。
針對(duì)大型語(yǔ)料庫(kù)的加速技術(shù)
在一個(gè)擁有大規(guī)模單詞表的語(yǔ)料庫(kù)上訓(xùn)練模型是非常費(fèi)時(shí)的。這主要是由于用于大型詞匯表的 Softmax 層。為了解決訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)時(shí)輸出空間大的問(wèn)題,人們提出了許多方法。一般來(lái)說(shuō),這些方法可以分為四類,即:分層的 Softmax、基于采樣的近似、自歸一化以及在有限損失函數(shù)上的精確梯度。其中前兩種方法被廣泛用于 NNLM。
語(yǔ)料庫(kù)
一般來(lái)說(shuō),為了減少訓(xùn)練和測(cè)試的開(kāi)銷,需要在小型語(yǔ)料庫(kù)上對(duì)模型的可行性進(jìn)行驗(yàn)證。常用的小型語(yǔ)料庫(kù)包括 Brown、Penn Treebank 以及 WikiText-2(見(jiàn)表 1)。
在模型結(jié)構(gòu)被確定后,需要在大型語(yǔ)料庫(kù)上對(duì)其進(jìn)行訓(xùn)練和評(píng)估,從而證明模型具有可靠的泛化能力。常用的大型語(yǔ)料庫(kù)會(huì)隨著時(shí)間根據(jù)網(wǎng)站、報(bào)紙等媒體(包括華爾街日?qǐng)?bào)、維基百科、新聞評(píng)論、 News Crawl、Common Crawl 、美聯(lián)社(AP)新聞等)被更新。
然而,我們通常會(huì)利用不同的大型語(yǔ)料庫(kù)訓(xùn)練 LM。即使在同一個(gè)語(yǔ)料庫(kù)上,各種不同的預(yù)處理方法和不同的訓(xùn)練/測(cè)試集的劃分也會(huì)影響實(shí)驗(yàn)結(jié)果。與此同時(shí),展示訓(xùn)練時(shí)間的方式也不一樣,或者在一些論文中并沒(méi)有給出訓(xùn)練時(shí)間。不同論文中的實(shí)驗(yàn)結(jié)果并沒(méi)有得到充分的比較。
工具包
傳統(tǒng)的 LM 工具包主要包括「CMU-Cambridge SLM」、「SRILM」、「IRSTLM」、「MITLM」以及「BerkeleyLM」,它們只支持帶有各種平滑技術(shù)的 N 元語(yǔ)言模型的訓(xùn)練和評(píng)估。隨著深度學(xué)習(xí)的發(fā)展,人們提出了許多基于 NNLM 的工具包。
Mikolov 等人于 2011 年構(gòu)建了 RNNLM 工具包。該工具包支持訓(xùn)練 RNNLM 來(lái)優(yōu)化語(yǔ)音識(shí)別和機(jī)器翻譯,但是它并不支持并行訓(xùn)練算法和 GPU 運(yùn)算。Schwenk 于 2013 年構(gòu)建了神經(jīng)網(wǎng)絡(luò)開(kāi)源工具 CSLM(連續(xù)空間語(yǔ)言建模),用于支持 FFNN 的訓(xùn)練和評(píng)估。Enarvi 和 Kurimo 于 2016 年提出了可伸縮的神經(jīng)網(wǎng)絡(luò)模型工具包「TheanoLM」,它訓(xùn)練 LM 對(duì)句子進(jìn)行打分并生成文本。
根據(jù)調(diào)查,我們發(fā)現(xiàn)并沒(méi)有同時(shí)支持傳統(tǒng) N 元語(yǔ)言模型和 NNLM 的工具包。而且它們通常并不包含加載常用的 LM 的功能。
未來(lái)的研究方向
首先,降低計(jì)算開(kāi)銷、減少參數(shù)數(shù)量的方法仍然會(huì)被繼續(xù)探索,從而在不增加困惑度的條件下提升訓(xùn)練和評(píng)估的速度。其次,我們期待能夠產(chǎn)生一種新的架構(gòu),它能夠模擬人的工作方式,從而提升 LM 的性能。例如,為 LM 構(gòu)建一種生成模型(例如 GAN),可能會(huì)成為一個(gè)新的研究方向。最后,同樣重要的是,目前的 LM 的評(píng)估體系并不規(guī)范。因此,有必要構(gòu)建一個(gè)評(píng)價(jià)對(duì)比基準(zhǔn)來(lái)統(tǒng)一預(yù)處理以及論文中應(yīng)該展示的實(shí)驗(yàn)結(jié)果。
以上就是關(guān)于智能pos機(jī)結(jié)構(gòu)設(shè)計(jì),從經(jīng)典結(jié)構(gòu)到改進(jìn)方法的知識(shí),后面我們會(huì)繼續(xù)為大家整理關(guān)于智能pos機(jī)結(jié)構(gòu)設(shè)計(jì)的知識(shí),希望能夠幫助到大家!
