中文字幕在线一区二区在线,久久久精品免费观看国产,无码日日模日日碰夜夜爽,天堂av在线最新版在线,日韩美精品无码一本二本三本,麻豆精品三级国产国语,精品无码AⅤ片,国产区在线观看视频

      自然語言檢索中的概念控制

      時間:2024-09-20 01:23:45 教育畢業論文 我要投稿
      • 相關推薦

      自然語言檢索中的概念控制

      自然語言檢索是信息檢索中的一個類型。隨著互聯網的普及和發展,信息檢索的最終用戶日趨擴大,自然語言檢索成為重要的發展趨勢。
      目前,自然語言檢索系統采用的是模式匹配技術。所謂模式指的是關鍵詞或索引詞匯。模式匹配技術處理速度快,簡單易行,但也有缺點。自然語言檢索系統對同義詞、近義詞、多義詞和其他一些與其相關的詞語沒有進行規范和統一,詞間缺乏有機的聯系。當用戶提問的檢索概念具有多種表達形式時,采用單一的關鍵詞或自然語言索引詞匹配方式勢必會影響檢全率。自然語言檢索系統的選詞沒有嚴格限制,詞量過多過雜,這樣會影響檢準率,并且會過多地占用磁盤的存儲空間,影響查詢匹配的速度。要想解決這些問題,必須對自然語言查詢做進一步的處理,也就是進行概念控制。

        1 概念控制及其實現基礎

      1.1 概念控制的目的
      概念并不是孤立存在的,一個概念總是與其他概念之間存在著各種各樣的關系,如上下位關系、同義關系、反義關系等。關鍵詞也會出現一詞多義、一義多詞以及同一事物多種表述的情形。根據概念之間的相互聯系,在詞的概念含義層次上建立聯系,為檢索用戶提供相關的結果分析是概念控制的一個應用前景。例如,“體育”這一概念根據上下立類的關系可以細分為足球、排球、奧運會、亞運會等,單純的字面匹配會漏檢甚至誤檢很多與之相關的信息。通過概念控制就可以將一個上位類的概念擴展為多個子概念。體育新聞的檢索就可以擴展為:體育新聞、球類(足球、籃球、排球)、田徑運動、體育賽事(奧運會、亞運會、世界杯)等概念,同時對那些具有下位概念的詞匯可以再次擴展,這樣就大大地提高了檢索效果。“計算機”和“電腦”是同一事物的不同表述,機械匹配的話就只能檢索到有關“計算機”或“電腦”的信息,采用概念控制的相關方法可以將這些相同概念的詞匯統一到檢索匹配中,這樣就擴大了檢索面,提高了檢全率。在自然語言檢索系統中進行慨念控制,就是把信息檢索從目前的基于關鍵詞層面提高到基于知識(概念)層面,能夠從概念意義層次上來認識和處理檢索用戶的請求,從而提高檢全率和檢準率。
      1.2 概念控制的主要方法
      目前雖然沒有一個檢索系統可以完全實現理想狀態下的高層次的語義檢索,但有些自然語言檢索系統已經采用概念控制查詢。主要的方法是利用知識體系建立概念間的關系進行查詢擴展,深度匹配,優化檢索效果。
      概念控制的內容包括:提問句概念語義塊的抽取,從提問句中切分出概念詞或詞組等語義單位;基于知識體系對抽取出的語義單元進行概念擴展;概念的組配,將選擇出的各檢索單位基于知識體系的組織信息轉換成體現概念關系的邏輯表達式。
      概念抽取不等同于分詞處理,其中包括普通概念的識別和人名、地名、事件名等專有名詞的識別,并進行概念提取。對于普通的概念字串采用逆向最長匹配算法(或正向最長匹配算法),并綜合切割標記等分詞手段切分就可以進行概念抽取。對于詞典中未收錄的概念詞,可以采取基于句模、句子結構分析、詞和詞組構成規則、句內結構性標志字、標點符號等來進行切分。除切割標志外,已知的詞也可作切割標記使用。
      自然語言檢索系統的本質是查詢滿足特定主題概念的文本,因此被檢索的內容不是和提問句的字面匹配。對提問進行分析后抽取出的主要是概念或概念的組合,需要進行概念匹配,這就需要對檢索句中的詞進行概念擴展,即考慮提問句中詞的同近義詞、上下位詞和關聯詞。可以通過知識體系保存同近義關系、上下位關系和其他關聯關系,當處理用戶檢索需求時,通過查詢知識體系可對提問句中的詞按概念進行擴展。如“我國今天的體育新聞”,可以通過知識體系對“體育”進行擴展,查詢包括“籃球”、“賽車”、“奧運會”、“世界杯”等方面的內容,“今天”一詞指檢索者進行檢索時的日期,因此需通過規則將“今天”映射為檢索時的時間,將“我國”擴展為“我國”V“中國”V“中華人民共和國”(知識體系中可能只存在“中國”和“中華人民共和國”之間的同義關系,沒有“我國”這一詞條)。
      概念組配,按其內在邏輯關系,可分為限定組配和相交組配。限定組配將一個概念的內涵增加到另一個概念的內涵中,從而加深概念的內涵,縮小或限定了概念的外延。相交組配將具有共同的屬概念、概念之間具有相交關系、外延部分重合的概念組合成一個新概念。在構成查詢表達式時,基于知識體系的擴展詞和原詞間為“邏輯加”的關系。如“美麗”擴展為“美麗”V“漂亮”V……V“標志”。提問句中語義塊間的關系通常為邏輯乘的關系。語義塊間的概念組配通常存在如下邏輯關系:(1)主謂結構,描述的是一種陳述與被陳述的關系。(2)偏正結構,描述的是一種修飾與被修飾的關系。(3)動賓結構,描述的是一種作用和被作用的關系。(4)并列結構,描述的是一種成分間的并列關系[1]。主謂結構、偏正結構和動賓結構間為“邏輯乘”關系,并列結構為“邏輯加”關系。但通過對檢索提問句進行分析后發現,部分并列結構在用戶的檢索概念中為“邏輯乘”關系,于是采用通過句模分析和指示標志來確定語義塊間的“邏輯乘”或“邏輯加”關系。提問句語義塊之間的“邏輯加”關系通常存在顯式指示標志,如“或”等。分析傳統的主、謂、賓、定、狀、補六大成分與句型的關系,可以輔助獲取語義塊的邏輯關系。檢索提問句的語義概念和提問句的結構緊密相關。需要分析謂語的性質、句子的結構,如“把”字、“被”字句等。
      概念控制的3項關鍵技術中,概念擴展和概念組配都離不開知識體系的支持,知識體系的好壞直接關系到檢索效果的優劣。
      1.3 概念控制系統
      國內外已有一些檢索系統在不同程度上實現了概念控制,代表系統有首信搜索引擎、孫悟空、UMLS等。下面以UMLS為例進行介紹。

      自然語言檢索中的概念控制

      【自然語言檢索中的概念控制】相關文章:

      信息檢索中的查詢擴展技術03-07

      審計視角下內部控制相關概念的探討03-22

      探析CBR在因特網教育資源檢索中的應用03-20

      《邏輯哲學論》中的真理概念03-03

      PPLID控制回路及其在FIRA控制中的應用03-21

      試論西方哲學中的“常識”概念03-07

      德國環境刑法中污染概念的研究03-25

      試臨床醫學中的模糊概念03-18

      概念設計中的虛擬現實技術03-19

      主站蜘蛛池模板: 亚洲地区一区二区三区| 亚洲中文字幕久爱亚洲伊人| 亚洲一区二区三区品视频| 精品精品国产一区二区三区| 精品视频在线观看二区| 国产啪精品视频网站免| 精品人妻免费看一区二区三区| 亚洲国产视频精品一区二区| 好爽要高潮了在线观看| 亚洲成A人A∨久在线观看| 华坪县| 国产精品国产午夜免费看福利| 亚洲AV秘 无码一区二区三区| 国产精品自拍视频免费| 久久精品国产亚洲AV香蕉吃奶| 正阳县| 铜梁县| 剑川县| 高潮喷水无遮挡毛片视频| 国产成人av性色在线影院色戒| 亚洲免费成年女性毛视频| 尤物yw午夜国产精品视频| 官网A级毛片| 亚洲国产资源一区二区| 亚洲av激情综合在线| 真人在线射美女视频在线观看| 亚洲AV无码一区二区三区精神| 国内精品久久久久影院蜜芽| 仙桃市| 绥棱县| 国产女人体一区二区三区| 青岛市| 亚洲女同视频在线观看| 午夜无码国产18禁| 国产激情一区二区三区成人免费| 在线观看黄片在线播放视频| 国产亚洲av天天在线观看| 91久久精品一二三区蜜桃| 精品一区二区三区久久久| 国产精品日日摸夜夜添夜夜添| 亚洲免费日韩一区二区|