當前位置:首頁>知識>語義符號化的理解(從詞嵌套到句子語義)
發布時間:2024-01-23閱讀(12)

演講鏈接:https://www.youtube.com/watch?v=nFCxTtBqF5U
PDF鏈接: https://simons.berkeley.edu/sites/default/files/docs/6449/christophermanning.pdf
去年,Christopher Manning教授發表了這個演講。這是一個介紹性教程,沒有太復雜的算法。 該主題分為四個部分:
人類語言特征
人類語言最鮮明的特征之一是其有意義的表征。 無論一個人說什么,一個詞或一個詞組,它往往都有意義。 人類語言也有一個特殊的結構,使其易于學習,即使是孩子也可以快速學習。 與最先進的機器學習方法中使用的必要輸入不同,人類語言更可能是離散/符號/分類表征。 因此,我們需要一種更有效、更有意義的方式來編碼人類語言。
分布式詞表征
詞向量
就一些傳統的機器學習方法而言,詞被表示為向量空間中的離散向量(即one-hot編碼),例如 [0 0 0 0 1 0 0 1] 可能是一個具備同樣規模詞匯量的大的向量。但這種方法存在一個問題,即缺乏相似性的自然概念。例如如果我們想要搜索“Dell notebook”,我們也可以接受詞條“Dell laptop”,但實際上它們被表示為兩個不同的離散向量 [0 0 0 1 0] 和 [0 0 1 0 0],正交性使我們無法在它們之間建立任何概念聯系。
為了分享更多的統計數據并尋求類似單詞/短語之間的更多相似性,密集向量被認為是現代NLP最成功的想法之一。神經網絡使用密集向量來表示單詞。
word2vec的詳細信息
在神經網絡中,用于學習密集詞向量的標準概率建模基于以下公式:

這意味著該目標函數是使用中心詞 c 及其語境詞的softmax函數,其中o是語境詞索引,u_o是對應的詞向量,c是中心詞索引,v_c是對應的詞向量。 總體目標是盡量使該概率最大化,以便經過百萬次反向傳播后,具有相同周圍詞向量的詞更容易在向量空間中具備相似的含義。

上圖是學習后向量空間中的投影詞向量。 因此,它不僅可以捕獲相似性共現,還可以捕獲一些細粒度維度含義,以便你可以在某些指定的方向上觀察某些特定的語境連接。
BiLSTM現狀
“基本上,如果你想做一個自然語言處理任務,不管它是什么,你都應該把數據放到一個BiLSTM網絡中,通過注意力機制增強其信息流。”

以上圖片是經典的RNN編碼器-解碼器網絡。 首先,根據當前輸入和前一個隱藏狀態,計算每個時間步的源語句的編碼器網絡讀入詞和相應的隱藏狀態。 然后解碼器開始基于編碼器的最后隱藏狀態生成單詞。 不幸的是,它不能很好地用于機器翻譯,因為它無法捕捉源句子的長期依賴。
LSTM和GRU可以改善這一點,這是近年來最成功的兩個RNN變體,用于解決長期依賴問題。 它們也被廣泛稱為“gated recurrent unit”。 門控機制控制哪些信息應該傳遞到下一步,以便預測出好的譯文。

上圖是GRU模塊的數學公式。 GRU模塊就像一個讀/寫寄存器。 它讀取前一個隱藏狀態的一部分,并與當前輸入結合以構建候選更新(請參閱上面公式的第二行)。 然后它保留部分維度與先前隱藏狀態相同,并通過候選更新更新剩余部分(請參閱上面公式的第一行)。 請注意,u_t和r_t是多變量伯努利分布,范圍從0到1(以便做出選擇:遺忘或更新)。

LSTM模塊與GRU模塊類似,但它具有更多的可訓練參數。這里的思路也是基于先前隱藏狀態和當前輸入的候選更新值(參見上面公式中的第三個方程),它用于單元格計算(參見上述公式中的第二個方程)。當我們計算單元格時,可能會根據f_t遺忘前一個單元格狀態的一部分,并且可以根據i_t添加部分候選更新。在計算單元格狀態之后,我們可以基于單元和輸出門計算當前隱藏狀態(見上式中的第一個方程)。注意,f_t和i_t也是一個多變量伯努利分布,范圍從0到1(以便做出選擇:遺忘或更新)。
這里的魔法是“ ”符號(參見上述GRU公式中的第一個公式和上述LSTM公式中的第二個公式)。它將整合新的候選隱藏狀態和之前時間步中的部分隱藏狀態,這意味著信息流可以基于前一步在多個方向上進行。通過這種方式,梯度將會更平滑地反向傳播(更少的梯度消失問題),并且與傳統的遞歸神經網絡相比,該系統傾向于具有更長的短期記憶。
總之,基于門控,LSTM / GRU模塊可以專注于某個特定的環境,并且遺忘對將來貢獻較少的語境,因此整體而言,它可以暫時記住部分句子,以便為未來的學習做出貢獻。

這是Sutskever等人 2014 [1] 提出的LSTM編碼器-解碼器結構,它已經在機器翻譯方面有杰出的表現。 LSTM模塊已被替換為網絡內部單元,并具有更深的架構。其工作流程與之前相同:讀入源句子,將其編碼為隱藏嵌入,并由解碼器生成該句子。 但是這里仍然有一個很大的限制:發送給解碼器的整個記憶與編碼器的最后一步相關聯。 但是,這種架構可能引發兩個問題:首先,這樣信息流可能受到限制。 其次是對于更長的句子,編碼器開始時的標記可能會在從左到右的過程中被遺忘。

為了克服這兩個問題,人們提出了雙向長短期記憶Bi-LSTM,它的思想是,在解碼器的一個步驟中,根據語境向量提供附加控制,該語境向量處理來自源句子的所有信息(回看源句子并計算它們在每個編碼器隱藏狀態和當前解碼器隱藏狀態之間的相關程度)。通過加權,語境向量可以基于整個源句子而不僅僅是最終的編碼器隱藏狀態來影響當前解碼器的隱藏狀態,這可以增強記憶并使其在實踐中非常成功。為了更好地表示源語句,在編碼器中使用雙向設計,在兩個方向上運行LSTM。這有助于模型使用左右的語境詞更好地表征源句子中的每個單詞。在實踐中,當你在每個方向獲得每個單詞的詞向量時,只需將它們連接起來,總會出現一些改進(無論是最終準確率還是句法順序)。

近年來,與傳統的基于短語的機器翻譯和基于句法的機器翻譯相比,神經網絡機器翻譯(NMT)在單詞記憶測試的新評估中取得了重大進展。 神經網絡機器翻譯有四個優點:
RNN的一些應用
存在基于RNN的各種應用,如問答、閱讀理解和情感分析等。最近有些人也使用卷積神經網絡進行機器翻譯[2]。
評論與觀點
盡管基于神經的方法在最近的WMT評估中取得了重大進展,但在實踐中,尤其是在實際的域內數據方面,神經機器翻譯仍然不如基于統計的機器翻譯有競爭力。 一方面,我希望人們能夠為NMT系統開發構建更有意義的、全面的、各種類型的數據,另一方面,就自然語言處理而言,無論具體的任務是什么,語言和記憶的結構和模塊化程度都需要不斷增加,尤其是它的泛化能力和可解釋性。
歡迎分享轉載→http://www.avcorse.com/read-104045.html
Copyright ? 2024 有趣生活 All Rights Reserve吉ICP備19000289號-5 TXT地圖HTML地圖XML地圖