信息抽取
信息抽取(InformationExtraction:IE)是把文本里包含的信息進行結構化處理,變成表格一樣的組織形式。抽取系統(tǒng)的輸入信息是原始文本,輸出的是固定格式的信息點。信息點從各種各樣的文檔中被抽取出來,然后以統(tǒng)一的形式集成在一起。這就是
信息抽取的主要任務。信息以統(tǒng)一的形式集成在一起的好處是方便檢查和比較。
信息抽取技術并不試圖全面理解整篇文檔,只是對文檔中包含相關信息的部分進行分析。至于哪些信息是相關的,那將由系統(tǒng)設計時定下的領域范圍而定。