欧美一级特黄大片做受成人-亚洲成人一区二区电影-激情熟女一区二区三区-日韩专区欧美专区国产专区

文本關(guān)鍵詞提取方法及具體操作步驟

2023-04-13    分類: 網(wǎng)站建設

在搜索引擎中,通過處理海量的文本關(guān)鍵詞進而盡可能滿足用戶搜索需求是搜索引擎核心,無論一篇文章的長短,搜索引擎都可以通過提取關(guān)鍵詞的方法來判斷整篇文章的主題,因此如何判斷一篇文章的核心關(guān)鍵詞是什么非常重要,下面關(guān)于為什么要做關(guān)鍵詞提取以及基于TF-IDF的文本關(guān)鍵詞抽取方法作簡單介紹。

為什么要做關(guān)鍵詞提取

關(guān)鍵字提取是文本挖掘領(lǐng)域的一個重要組成部分。從文本中提取關(guān)鍵詞有三種方法:監(jiān)督、半監(jiān)督和無監(jiān)督。監(jiān)督關(guān)鍵字提取算法是將關(guān)鍵字提取算法構(gòu)造為兩類問題來判斷文檔中的詞或短語是否為關(guān)鍵字。由于這是一個分類問題,因此有必要提供標記的訓練預測。訓練語料庫用于訓練關(guān)鍵詞提取模型。根據(jù)該模型,對需要提取關(guān)鍵字的文檔的關(guān)鍵字提取算法進行了半監(jiān)督。

構(gòu)造關(guān)鍵詞提取模型只需要少量的訓練數(shù)據(jù),然后利用模型對新文本進行檢查。關(guān)鍵字提取,手動篩選這些關(guān)鍵字,并將篩選后的關(guān)鍵字添加到培訓集以重新培訓模型。無監(jiān)督的方法不需要手動標記語料庫。一些方法被用來尋找文本中更重要的詞作為關(guān)鍵字并提取關(guān)鍵字。監(jiān)督文本關(guān)鍵字提取算法要求人工成本高,現(xiàn)有的文本關(guān)鍵字提取主要采用無監(jiān)督關(guān)鍵字提取,適用性強。

文本關(guān)鍵字提取的過程如下:無監(jiān)督文本關(guān)鍵字提取流程圖無監(jiān)督關(guān)鍵字提取算法可分為三類:基于統(tǒng)計特征的關(guān)鍵字提取、基于詞圖模型的關(guān)鍵字提取和基于主題模型的關(guān)鍵字提取?;诮y(tǒng)計特征的文本關(guān)鍵字提取算法基于統(tǒng)計特征的關(guān)鍵字提取算法基于統(tǒng)計特征的關(guān)鍵字提取算法是利用文檔中的統(tǒng)計信息提取關(guān)鍵字。

一般情況下,文本經(jīng)過預處理得到候選詞集,然后通過特征值量化從候選詞集中獲得關(guān)鍵詞?;诮y(tǒng)計特征的關(guān)鍵詞提取方法的關(guān)鍵是采用何種特征值量化指標。

基于TF-IDF的文本關(guān)鍵詞抽取方法

詞頻(Term Frequency,TF)

指某一給定詞語在當前文件中出現(xiàn)的頻率。由于同一個詞語在長文件中可能比短文件有更高的詞頻,因此根據(jù)文件的長度,需要對給定詞語進行歸一化,即用給定詞語的次數(shù)除以當前文件的總詞數(shù)。

逆向文件頻率(Inverse Document Frequency,IDF)

是一個詞語普遍重要性的度量。即如果一個詞語只在很少的文件中出現(xiàn),表示更能代表文件的主旨,它的權(quán)重也就越大;如果一個詞在大量文件中都出現(xiàn),表示不清楚代表什么內(nèi)容,它的權(quán)重就應該小。

TF-IDF的主要思想是,如果某個詞語在一篇文章中出現(xiàn)的頻率高,并且在其他文章中較少出現(xiàn),則認為該詞語能較好的代表當前文章的含義。即一個詞語的重要性與它在文檔中出現(xiàn)的次數(shù)成正比,與它在語料庫中文檔出現(xiàn)的頻率成反比。

TF-IDF是對文本所有候選關(guān)鍵詞進行加權(quán)處理,根據(jù)權(quán)值對關(guān)鍵詞進行排序。假設Dn為測試語料的大小,該算法的關(guān)鍵詞抽取步驟如下所示:

(1) 對于給定的文本D進行分詞、詞性標注和去除停用詞等數(shù)據(jù)預處理操作。本分采用結(jié)巴分詞,保留'n','nz','v','vd','vn','l','a','d'這幾個詞性的詞語,最終得到n個候選關(guān)鍵詞,即D=[t1,t2,…,tn] ;

(2) 計算詞語ti 在文本D中的詞頻;

(3) 計算詞語ti 在整個語料的IDF=log (Dn /(Dt +1)),Dt 為語料庫中詞語ti 出現(xiàn)的文檔個數(shù);

(4) 計算得到詞語ti 的TF-IDF=TF*IDF,并重復(2)—(4)得到所有候選關(guān)鍵詞的TF-IDF數(shù)值;

(5) 對候選關(guān)鍵詞計算結(jié)果進行倒序排列,得到排名前TopN個詞匯作為文本關(guān)鍵詞。

上述關(guān)于文本關(guān)鍵詞提取方法及具體操作步驟作簡單介紹,希望這些知識對您有所幫助!

網(wǎng)站欄目:文本關(guān)鍵詞提取方法及具體操作步驟
鏈接分享:http://www.aaarwkj.com/news10/253860.html

成都網(wǎng)站建設公司_創(chuàng)新互聯(lián),為您提供定制網(wǎng)站云服務器、動態(tài)網(wǎng)站、網(wǎng)站設計外貿(mào)建站、虛擬主機

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

外貿(mào)網(wǎng)站制作
日日激情综合久久一区| 久久久亚洲成人国产av| 免费一区二区不卡去日本| 久久免费看少妇高潮免费| 久亚洲精品九九久久99| 好吊精品视频在线观看| 加勒比中文字幕日本道| 久久人妻精品一区二区三区| 97青青草免费在线视频| 青娱乐青青草91在线| 极品女神福利视频久久| 91麻豆国产福利在线| 麻豆蜜桃精品视频在线观看| 欧美一区二区三区午夜| 尤物在线免费观看视频| 午夜免费福利视频一区| 国产乱码精品免费一区二区av| 亚洲欧美国产日韩天堂区| 欧美日韩国产精品乱人伦| 亚洲精品中文一区二区三区| 亚洲精品久久麻豆蜜桃| 好看的中文字幕人妻少妇| 久草午夜福利视频免费观看| 高清一区高清二区高清三区| 天堂av在线资源观看| 午夜性生活视频免费看| 久久精品一区二区熟女| 国产精品呦呦国产精品尤物 | 成人黄色av在线看| 亚洲国产欲色有一二欲色| 91欧美日韩精品在线| 星空无限传媒国产最新| 欧美日韩精品视频在线| 中文字幕乱码视频日本| 91蜜臀在线视频播放| 久久成人影院免费观看| 国产丝袜美腿一二三区| 亚洲男人天堂日本一区| 亚洲高清成人在线观看| 美国一级黄片在线观看| 深夜视频在线观看成人|