產品介紹
隨著計算機的日益普及和互聯網的迅猛發展,社會的信息化程度越來越高,計算機的使用也越來越廣泛,如何清晰、 、簡潔的同計算機交流,成為各界人士共同關注的焦點,自然語言理解也被人們寄予高度的期待。
語義是指信息包含的概念和意義。語義不僅表述事物本質,還表述事物之間的因果、上下位、施事等各種邏輯關系。因此,語義是對事物的描述和邏輯表示。語義分析就是對信息所包含的語義的識別,并建立一種計算模型,使其能夠像人那樣理解自然語言。語義分析是自然語言理解的根本問題,它在自然語言處理、信息檢索、信息過濾、信息分類、語義挖掘等領域有著廣泛的應用。在互聯網時代,面對海量的信息資源,要想準確地進行信息抽取,檢索所需信息、挖掘潛在的信息價值、提供智能的知識服務,都離不開面向機器理解的語義分析。尤其在大數據環境下,語義分析的地位越來越凸顯出來。
按照多數文獻的觀點首先,詞法分析——主要包括分詞、詞性標注、詞義消歧、新詞識別等——是通過分詞、詞頻和位置統計等手段獲得相關語言信息。其次,句法分析通過使句子成分特征化來分析句子結構特征,通過對句子和短語結構的分析找出詞、短語等的相互關系以及各自在句中的作用,并以 結構來表達諸如從屬關系、成分關系等,目的是判定句子中各種結構性成分。第三,為了理解一個提問,一般還需要更多的語義和語用知識來幫助理解句子的意思,通過分析找出詞義、結構意義及其結合意義,從而確定句子所表達的真正含義,而語義信息的標記需要包含概念完全集與關系圖的支持,需要對句法成分做出細致的語義分類,它一般應包括語言層面(即反映語言表面現象的知識,如同義詞關系、層次關系等)、本體論層面(描述概念之間復雜的語義關系)、常識層面等。雖然這項工作浩繁,但目前已經取得了一些初步成果。最后,篇章分析用于對多個語句、段落之間在結構或者語義上的相互關系進行分析。
北京理工大學大數據實驗室張華平主任研發的NLPIR大數據語義智能分析技術。NLPIR大數據語義智能分析平臺平臺是根據中文數據挖掘的綜合需求,融合了網絡準確采集、自然語言理解、文本挖掘和語義搜索的研究成果,并針對互聯網內容處理的全技術鏈條的共享開發平臺。包括大數據完整的技術鏈條:網絡采集、正文提取、中英文分詞、詞性標注、實體抽取、詞頻統計、關鍵詞提取、語義信息抽取、文本分類、情感分析、語義深度擴展、繁簡編碼轉換、自動注音、文本聚類等功能。