產品介紹
隨著信息技術的不斷發展,人們已經進入信息豐富的時代,一方面信息來源廣泛,包括?Web?文檔圖書文獻數字化資料等,這些異構的信息分布在Internet?空間中;另一方面,信息量巨大。面對信息的海洋,人們覺得力不從心,往往花費了很多時間卻所獲甚少。在這種情況下,如何有效地提供基于?Internet?的資源發現服務,以幫助用戶從大量信息資源的集合中找到與給定的查詢請求相關的、恰當數目的資源子集,也就成為一項重要而迫切的難題。
數據挖掘技術本身就是當前數據技術發展的新領域,文本挖掘則發展歷史更短.傳統的信息檢索技術對于海量數據的處理并不盡如人意,文本挖掘便日益重要起來,可見文本挖掘技術是從信息抽取以及相關技術領域中慢慢演化而成的。
文本挖掘是為了發現知識,從大規模文本數據中抽取隱含的、以前未知的、潛在有用的模式的過程。文本挖掘可以看作是數據挖掘技術與文本處理技術的結合,是數據挖掘從處理結構化數據到處理無結構數據的一次飛躍,已成為當前知識發現領域的主流方向之一。
文本挖掘不但要處理大量的結構化和非結構化的文檔數據,?而且還要處理其中復雜的語義關系,?因此,?現有的數據挖掘技術無法直接應用于其上。對于非結構化問題,?一條途徑是發展全新的數據挖掘算法直接對非結構化數據進行挖掘,?由于數據非常復雜,?導致這種算法的復雜性很高;?另一條途徑就是將非結構化問題結構化,?利用現有的數據挖掘技術進行挖掘,?目前的文本挖掘一般采用該途徑進行。對于語義關系,?則需要集成計算語言學和自然語言處理等成果進行分析。
NLPIR能夠 多角度滿足應用者對大數據文本的處理需求,包括大數據完整的技術鏈條:網絡采集、正文提取、中英文分詞、詞性標注、實體抽取、詞頻統計、關鍵詞提取、語義信息抽取、文本分類、情感分析、語義深度擴展、繁簡編碼轉換、自動注音、文本聚類等。
中文數據挖掘技術應時代的要求應運而生,在很大程度上滿足了人們對自然語言處理的需要,解決了人和計算機交流中的一些障礙;但中文數據挖掘技術也存在很多困難,NLPIR大數據語義智能技術將對中文數據挖掘技術進行深入研究,必將提供出高質量、多功能的中文數據挖掘算法并促進自然語言理解系統的廣泛應用。