產品介紹
隨著科技的發展和網絡的普及,人們可獲得的數據量越來越多,這些數據多數是以文本形式存在的。而這些文本數據大多是比較繁雜的,這就導致了數據量大但信息卻比較匱乏的狀況。如何從這些繁雜的文本數據中獲得有用的信息越來越受到人們的關注。“在文本文檔中發現有意義或有用的模式的過程"的文本挖掘技術為解決這一問題提供了一個有效的途徑。
知識發現與數據挖掘是人工智能、機器學習和數據庫相結合的產物。隨著科學數據的大量積累和各種數據庫的廣泛使用,人們又逐步認識到海量數據的利用十分困難、效率低下,而且很難從中獲得有價值的指導性意見。在這種情況下,數據挖掘技術應運而生。
文本挖掘作為數據挖掘的一個新主題?引起了人們的很大興趣,同時它也是一個富于爭議的研究方向。文本挖掘不但要處理大量的結構化和非結構化的文檔數據,而且還要處理其中復雜的語義關系,因此,現有的數據挖掘技術無法直接應用于其上。對于非結構化問題,一條途徑是發展全新的數據挖掘算法直接對非結構化數據進行挖掘,對于數據非常復雜,導致這種算法的復雜性很高;另一條途徑就是將非結構化問題結構化,利用現有的數據挖掘技術進行挖掘,目前的文本挖掘一般采用該途徑進行。對于語義關系,則需要集成計算語言學和自然語言處理等成果進行分析。
NLPIR大數據語義智能分析平臺平臺針對互聯網內容處理的全技術鏈條的共享開發平臺。15年專業研究與工程積累,提供應用軟件及各平臺下的二次開發包。提供了用于技術二次開發的基礎工具集。開發平臺由多個中間件組成,各個中間件API可以無縫地融合到客戶的各類復雜應用系統之中。
NLPIR能夠 多角度滿足應用者對大數據文本的處理需求,包括大數據完整的技術鏈條:網絡采集、正文提取、中英文分詞、詞性標注、實體抽取、詞頻統計、關鍵詞提取、語義信息抽取、文本分類、情感分析、語義深度擴展、繁簡編碼轉換、自動注音、文本聚類等。
中文數據挖掘技術應時代的要求應運而生,在很大程度上滿足了人們對自然語言處理的需要,解決了人和計算機交流中的一些障礙;但中文數據挖掘技術也存在很多困難,NLPIR大數據語義智能技術將對中文數據挖掘技術進行深入研究,必將提供出高質量、多功能的中文數據挖掘算法并促進自然語言理解系統的廣泛應用。