超越華為盤古千億模型,搜狗搜索再創中文語言理解評測CLUE世界第一

    2021-05-31 11:40 | 來源:TechWeb | 作者:俠名 | [產業] 字號變大| 字號變小


    近日,搜狗搜索技術團隊在CLUE(中文語言理解測評基準)的任務比賽中,基于自研的中文預訓練模型擊敗了包括華為盤古在內的一眾強勁對手,在CLUE總榜、分類總榜、閱讀理解榜再...

            近日,搜狗搜索技術團隊在CLUE(中文語言理解測評基準)的任務比賽中,基于自研的中文預訓練模型擊敗了包括華為盤古在內的一眾強勁對手,在CLUE總榜、分類總榜、閱讀理解榜再次獲得第一名,刷新業界記錄。

            “BERTSG”為搜狗搜索自研模型,“HUMAN”為人類成績(不計入選手)

            不懼業內強勁挑戰搜狗搜索用技術與算法彰顯實力

            作為中文語言理解領域最具權威性的測評基準之一,CLUE基于原始的中文文本語料共開設了8個方向的比賽,由文本相似度、分類、上下文推理、閱讀理解等共11個子任務組成。此前,搜狗搜索曾長期霸榜CLUE多個任務比賽冠軍寶座,但在今年4月遭遇到來自華為、阿里達摩院等競爭對手的強勁挑戰,華為更是利用其兩千億參數模型盤古一度取得領先。

            就在近日,搜狗搜索技術團隊基于自研的中文預訓練模型,一舉超越華為盤古,再度在CLUE總榜、分類總榜、閱讀理解榜獲得冠軍,展示了其在自然語義理解領域強大的技術創新實力和領先的AI算法能力。

            據了解,搜狗搜索技術團隊近一年來在預訓練模型研發上加強投入,已完成從億級到百億級中文預訓練模的研發,目前正開展千億級中文預訓練模型及多模態預訓練模型的研發工作。搜狗搜索技術團隊自研的預訓練模型之所以能夠比參數量更大的華為盤古在CLUE榜單取得更好的效果,主要是在訓練語料、模型結構、訓練方法三個方面進行了創新突破。

            訓練語料方面,憑借自身作為第二大搜索引擎的基礎優勢,搜狗搜索技術團隊首先從萬億網頁中篩選出10T優質語料,依托搜狗搜索的內容理解技術、大規模聚類等系統,進而從10T優質語料中精選出2T最終語料,這樣在保證語料內容質量的同時,還可以確保內容的多樣性,從訓練語料上提升了模型的訓練效率和泛化能力。

            模型結構方面,原始的BERT模型使用了Post-LN的結構,該結構的弊端是在訓練超大模型時,若沒有設置好warmup,會導致收斂效果變差。而搜狗的預訓練模型在結構上采用了Pre-LN的方式,大大提升了訓練效率。

            而在訓練方法方面,搜狗搜索技術團隊做了兩方面的創新優化。第一,采用了cross thought預訓練方法,同時引入對比訓練方法,解決原始BERT模型出來的cls token向量存在各向異性的問題,大大增強預訓練模型的表征能力,使得下游任務效果得到明顯提升。第二,加入了根據文章標題生成和段落順序預測兩個任務,進一步增強預訓練模型的文章理解能力。具體而言,在標題生成任務上,輸入一篇文章的內容和標題,并且對文章和標題都做詞語級別的mask操作,文章mask策略與Roberta-wwm采用的策略一樣,標題則mask超過80%的詞。而段落順序預測任務的目標是預測段落之間的上下文關系,在加入這兩種預測任務后,預訓練模型的效果得到明顯提升。

            搜狗搜索NLP技術長期領先,成功落地產品、加速賦能行業

            與此同時,此次搜狗搜索自研預訓練模型在CLUE總榜、分類總榜、閱讀理解榜再度獲得冠軍,也意味著搜狗搜索在自然語言預訓練、語義理解、長文本和短文本分類、閱讀理解、問答等領域皆持續處于業界領先水平,展現了其在NLP的超群實力。在此之前,搜狗搜索還曾在國際閱讀理競賽CoQA等競賽中取得了冠軍的成績。

            事實上,搜狗搜索之所以在NLP領域長期處于領先地位,與搜狗公司長期專注在自然語言處理領域進行深耕細作密不可分。作為一家將AI作為企業基因的公司,搜狗基于搜狗搜索、搜狗輸入法等核心產品,一直堅持其以語言為核心的AI戰略,并成功進行了一系列AI技術創新和產品落地實踐。

            據了解,搜狗自研的預訓練模型已在搜狗搜索產品中落地,大幅提升了用戶的搜索效率和體驗。此外,相關技術在語言翻譯、聊天機器人、知識圖譜等領域也具有廣泛的應用空間。

    電鰻快報


    1.本站遵循行業規范,任何轉載的稿件都會明確標注作者和來源;2.本站的原創文章,請轉載時務必注明文章作者和來源,不尊重原創的行為我們將追究責任;3.作者投稿可能會經我們編輯修改或補充。

    相關新聞

    信息產業部備案/許可證編號: 京ICP備17002173號-2  電鰻快報2013-2022 www.www.cqjiade.com

         

    電話咨詢

    關于電鰻快報

    關注我們

    中文字幕av日韩精品一区二区 | 国产丝袜一区二区| 无遮挡h纯内动漫在线观看| 亚洲国产精品国自产拍AV| 久久久国产精品网站| 精品人妻伦九区久久AAA片69| 综合久久精品色| 99久久久精品| 欧美成人精品一区二区综合| 亚洲精品无码mv在线观看网站 | 精品熟女少妇aⅴ免费久久| 国产丝袜一区二区三区在线观看| 1000部精品久久久久久久久| 国产精品欧美久久久久天天影视 | 2020久久精品国产免费| 久久精品亚洲欧美日韩久久| 人妻熟妇乱又伦精品视频| 国产精品 视频一区 二区三区| 亚洲一日韩欧美中文字幕欧美日韩在线精品一区二 | 99爱在线精品免费观看| 国内精品视频九九九九| 亚洲精品国产精品乱码视色| 777欧美午夜精品影院| 老司机午夜精品视频观看| 精品国产一区二区三区免费 | 国产亚洲精品自在久久| 国产手机在线精品| 无码人妻精品一区二区三区66| 99久久精品无码一区二区毛片| 一二三四日本视频中文| 久久91精品国产91久久麻豆| 亚洲欧美国产精品第1页| 九九99精品久久久久久| 在线观看理论福利片| 四虎永久在线精品国产免费| 美女扒开尿口让男人捅| 国产精品尹人在线观看| 国产精品免费大片| 亚洲韩精品欧美一区二区三区| 奇米精品一区二区三区在线观看| 2020日本不卡一区二区视频|