• <ul id="usaou"></ul>
  • 靈玖中科軟件(北京)有限公司
    主營產品:大數據搜索與挖掘
    產品展示 Products
    新聞動態 News
    NLPIR智能分詞用語義技術解決中文信息識別難題
    • 聯系人:張先生
    • QQ號碼:2794994234
    • 電話號碼:010-62648216
    • 手機號碼:13681251543
    • Email地址:2794994234@qq.com
    • 公司地址:北京市市轄區海淀區蘇州街盈智大廈
    產品介紹
      隨著信息技術的不斷發展,互聯網上的信息也在急劇膨脹,在這海量的信息中,各類信息混雜在一起,要想充分利用這些信息資源就要對它們進行整理,如果由人來做這項工作,已經是不可能的,而如果面對中文信息不采用分詞技術,那么整理的結果就過于粗糙,而導致資源的不能充分利用。通過引入分詞技術,就可以使機器對海量信息的整理更準確更合理,使得檢索結果更準確,效率也會大幅度的提高。
      但由于中文詞與詞之間不象西文那樣有明顯的分隔符,所以構成了中文在自動切分上的困難。在現有的中文自動分詞方法中,基于詞典的分詞方法占有主導地位。而中文分詞的主要困難不在于詞典中詞條的匹配,而是在于切分歧義消解和未登錄詞語的識別。在中文分詞過程中,這兩大難題一直沒有完全突破。
      1、歧義處理
      歧義是指同樣的一句話,可能有兩種或者更多的切分方法。目前主要分為交集型歧義、組合型歧義和真歧義三種。其中交集型歧義字段數量龐大,處理方法多樣;組合型歧義字段數量較少,處理起來相對較難;而真歧義字段數量更少,且很難處理。 分詞歧義處理之所以是中文分詞的困難之一,原因在于歧義分為多種類型,針對不同的歧義類型應采取不同的解決方法。除了需要依靠上、下文語義信息;增加語義、語用知識等外部條件外,還存在難以消解的真歧義,增加了歧義切分的難度。同時未登錄詞中也存在著歧義切分的問題,這也增加了歧義切分的難度。所以歧義處理是影響分詞系統切分精度的重要因素,是自動分詞系統設計中的一個 困難也是 核心的問題。
      2、未登錄詞識別
      新詞,專業術語稱為未登錄詞。也就是那些在字典中都沒有收錄過詞。未登錄詞可以分為專名和非專名兩大類。其中專名包括中國人名、外國譯名、地名等,而非專名包括新詞、簡稱、方言詞語、文言詞語、行業用詞等。 無論是專名還是非專名的未登錄詞都很難處理,因為其數量龐大,又沒有相應的規范,而且隨著社會生活的變遷,使未登錄詞的數量大大增加,這又為未登錄詞的識別增加了難度。
      北京理工大學大數據搜索與挖掘實驗室張華平主任研發的NLPIR大數據語義智能分析技術是滿足大數據挖掘對語法、詞法和語義的綜合應用。NLPIR大數據語義智能分析平臺是根據中文數據挖掘的綜合需求,融合了網絡采集、自然語言理解、文本挖掘和語義搜索的研究成果,并針對互聯網內容處理的全技術鏈條的共享開發平臺。
    主站蜘蛛池模板: 国产精品xxxx国产喷水亚洲国产精品无码久久一区 | 欧美精品亚洲精品日韩1818| 国产欧美日韩综合精品一区二区三区| 精品亚洲成a人片在线观看少妇| 精品一区二区无码AV| 国产伦精品一区二区三区女 | 亚洲精品无码久久毛片| 97久久精品人人澡人人爽| 久久精品中文騷妇女内射| 欧美成人精品网站播放| 99精品国产成人一区二区| 538国产精品一区二区在线| 曰韩精品无码一区二区三区| 国产综合精品久久亚洲| 中文字幕亚洲综合精品一区| 2018国产精华国产精品| 日本VA欧美VA精品发布| 亚洲中文字幕无码久久精品1| 精品久人妻去按摩店被黑人按中出 | 精品三级在线观看| 精品国产三级a∨在线| 亚洲线精品一区二区三区影音先锋| 精品国产免费人成网站| 国产精品香蕉在线观看| 91久久精品无码一区二区毛片| 999久久久免费精品国产| 久久久无码人妻精品无码| 亚洲精品无码高潮喷水在线| 亚洲第一区精品日韩在线播放| 久久久久人妻精品一区三寸蜜桃| 国产精品日韩欧美久久综合| 99精品久久久久久久婷婷| 亚洲精品天天影视综合网| 国产日韩欧美精品| 国内精品免费在线观看 | 亚洲精品理论电影在线观看| 精品国产欧美另类一区 | 日韩人妻无码精品久久免费一| 亚洲欧洲美洲无码精品VA| 亚洲精品国产综合久久一线| 亚洲?V无码成人精品区日韩|