產品介紹
語言是由語音形式、語義內容、結構關系三個方面構成的統一體,三個方面缺一不可,互相作用,構成了語言。語音是語言的形式部分,詞匯是語言的意義部分,語法是語言單位的關系部分,說的是符號與符號怎樣組合的問題。三個部分在語言中的作用,我們可以這樣簡單來表述:沒有語音形式,語言就無法存在,沒有詞匯的內容意義,語言就是一個 毫無作用的空殼,沒有語法,語言就是一盤雜亂而毫無章法的散沙。
進入21世紀,面對網絡時代信息的爆炸式增長,中文信息處理作為一項基礎性、普適特性的信息技術,面臨著挑戰和再次發展的機遇,在互聯網時代則顯示出其優勢。它的開發利用關系到我國今后信息產業乃至社會經濟的發展和信息安全,具有巨大的經濟價值和社會價值。
中文信息處理技術自動化水平的提高,將大大促進我國科技、國民經濟和社會發展,同時使中華民族的文化在信息時代得到新的發展。未來無疑應當加強中文信息處理技術的研發投入與政策傾斜。我國的中文信息處理技術還有自身一系列急需解決的基礎研究和應用技術問題。這些問題如果從現在起還得不到切實的加強,我們在中文信息處理事業中僅有的一些優勢,就要迅速失去,那將給我國造成的損失。
目前中文信息處理能力與 上 水平差距還很大。例如:自動分詞和詞性標注,至今還未開發出一個像日語分詞系統那樣被廣為接受的分詞標注系統。從采用的方法可以看出,隨著研究的不斷深入,基于統計的方法已逐漸暴露自身的缺陷,統計方法不可能解決所有的問題,還是需要結合基于規則的方法,才能在精度上得以突破;
北京理工大學大數據搜索與挖掘實驗室張華平主任研發的NLPIR大數據語義智能分析技術是滿足大數據挖掘對語法、詞法和語義的綜合應用。NLPIR大數據語義智能分析平臺是根據中文數據挖掘的綜合需求,融合了網絡采集、自然語言理解、文本挖掘和語義搜索的研究成果,并針對互聯網內容處理的全技術鏈條的共享開發平臺。
NLPIR大數據語義智能分析平臺主要有采集、文檔轉化、新詞發現、批量分詞、語言統計、文本聚類、文本分類、摘要實體、智能過濾、情感分析、文檔去重、全文檢索、編碼轉換等十余項功能模塊,平臺提供了客戶端工具,云服務與二次開發接口等多種產品使用形式。各個中間件API可以無縫地融合到客戶的各類復雜應用系統之中,可兼容不同操作系統平臺,可以供Java,Python,C,C#等各類開發語言使用。