欧美一级特黄大片做受成人-亚洲成人一区二区电影-激情熟女一区二区三区-日韩专区欧美专区国产专区

怎么用pythonpkuseg生成云詞

本篇內(nèi)容主要講解“怎么用python pkuseg生成云詞”,感興趣的朋友不妨來看看。本文介紹的方法操作簡單快捷,實用性強。下面就讓小編來帶大家學(xué)習(xí)“怎么用python pkuseg生成云詞”吧!

網(wǎng)站建設(shè)哪家好,找創(chuàng)新互聯(lián)!專注于網(wǎng)頁設(shè)計、網(wǎng)站建設(shè)、微信開發(fā)、微信平臺小程序開發(fā)、集團企業(yè)網(wǎng)站建設(shè)等服務(wù)項目。為回饋新老客戶創(chuàng)新互聯(lián)還提供了陸港免費建站歡迎大家使用!

安裝 pkuseg

pip3 install pkuseg

第一步是將演講內(nèi)容下載下來,保存到一個txt文件中,然后將內(nèi)容加載到內(nèi)存

content = []
with open("yanjiang.txt", encoding="utf-8") as f:
   content = f.read()

我統(tǒng)計了一下,文字總數(shù)是32546個。

接下來我們用pkuseg對內(nèi)容進行分詞處理,并統(tǒng)計出現(xiàn)頻率最高的前20個詞語是哪些。

import pkuseg
from collections import Counter
import pprint

content = []
with open("yanjiang.txt", encoding="utf-8") as f:
   content = f.read()

seg = pkuseg.pkuseg()
text = seg.cut(content)
counter = Counter(text)
pprint.pprint(counter.most_common(20))

輸出結(jié)果:

怎么用python pkuseg生成云詞


什么鬼,這都是些啥玩意,別急,其實啊,分詞領(lǐng)域還有一個概念叫做停用詞,所謂停用詞就是在語境中沒有具體含義的文字,例如這個、那個,你我他,的得地,以及標(biāo)點符合等等。因為沒人在搜索的時候去用這些沒意義的停用詞搜索,為了使得分詞效果更好,我們就要把這些停用詞過去掉,我們?nèi)ゾW(wǎng)上找個停用詞庫。

第二版代碼:

import pkuseg
from collections import Counter
import pprint

content = []
with open("yanjiang.txt", encoding="utf-8") as f:
   content = f.read()

seg = pkuseg.pkuseg()
text = seg.cut(content)

stopwords = []

with open("stopword.txt", encoding="utf-8") as f:
   stopwords = f.read()

new_text = []

for w in text:
   if w not in stopwords:
       new_text.append(w)

counter = Counter(new_text)
pprint.pprint(counter.most_common(20))

打印的結(jié)果:

[('微信', 163),
('用戶', 112),
('產(chǎn)品', 89),
('朋友', 81),
('工具', 56),
('程序', 55),
('社交', 55),
('圈', 47),
('視頻', 40),
('希望', 39),
('時間', 39),
('游戲', 36),
('閱讀', 33),
('內(nèi)容', 32),
('平臺', 31),
('文章', 30),
('信息', 29),
('團隊', 27),
('AI', 27),
('APP', 26)]

看起來比第一次好多了,因為停用詞都過濾掉了,跟采銅那張圖片有點像了,不過他挑出來的詞可能是從另外一個維度來的,畢竟人家是搞心理學(xué)的。但是我們選出來的前20個高頻詞還是不準(zhǔn)確,有些不應(yīng)該分詞的也被拆分了,例如朋友圈,公眾號,小程序等詞,我們認(rèn)為這是一個整體。

對于這些專有名詞,我們只需要指定一個用戶詞典, 分詞時用戶詞典中的詞固定不分開,重新進行分詞。

lexicon = ['小程序', '朋友圈', '公眾號']  #
seg = pkuseg.pkuseg(user_dict=lexicon)  # 加載模型,給定用戶詞典
text = seg.cut(content)

最后出來的結(jié)果前50個高頻詞是這樣的

163 微信
112 用戶
89 產(chǎn)品
72 朋友圈
56 工具
55 社交
53 小程序
40 視頻
39 希望
39 時間
36 游戲
33 閱讀
32 內(nèi)容
31 朋友
31 平臺
30 文章
29 信息
27 團隊
27 AI
26 APP
25 公眾號
25 服務(wù)
24 好友
22 照片
21 時代
21 記錄
20 手機
20 推薦
20 企業(yè)
19 原動力
18 功能
18 真實
18 生活
17 流量
16 電腦
15 空間
15 發(fā)現(xiàn)
15 創(chuàng)意
15 體現(xiàn)
15 公司
15 價值
14 版本
14 分享
14 未來
13 互聯(lián)網(wǎng)
13 發(fā)布
13 能力
13 討論
13 動態(tài)
12 設(shè)計

張小龍講得最多的詞就是用戶、朋友、原動力、價值、分享、創(chuàng)意、發(fā)現(xiàn)等這些詞,用戶出現(xiàn)112次,希望39次,朋友31次,這些詞正是互聯(lián)網(wǎng)的精神,如果我們把這些做成詞云的話,可能效果會更好

怎么用python pkuseg生成云詞

到此,相信大家對“怎么用python pkuseg生成云詞”有了更深的了解,不妨來實際操作一番吧!這里是創(chuàng)新互聯(lián)網(wǎng)站,更多相關(guān)內(nèi)容可以進入相關(guān)頻道進行查詢,關(guān)注我們,繼續(xù)學(xué)習(xí)!

網(wǎng)站標(biāo)題:怎么用pythonpkuseg生成云詞
文章來源:http://www.aaarwkj.com/article38/iggpsp.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供營銷型網(wǎng)站建設(shè)靜態(tài)網(wǎng)站、關(guān)鍵詞優(yōu)化、網(wǎng)站改版、外貿(mào)網(wǎng)站建設(shè)、品牌網(wǎng)站制作

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

成都定制網(wǎng)站網(wǎng)頁設(shè)計
国产三级网站在线观看| 丰满人妻一区二区三区色| 精品人妻少妇av一区二区| 亚洲 综合 久久久| 久久最新最热视频精品| 国产成人综合精品久久| 亚洲品质自拍在线观看| 成人午夜性色福利视频| 又爽又色的日本网站| 亚洲一区二区三区小蜜桃| 精品国产欧美亚洲91| 人妻口爆视频一区二区三区| 亚洲av天堂在线播放| 一区二区日韩视频九一蜜桃| 国产精品大白屁股视频| 国产亚洲欧美日韩中文字幕| 麻豆国产传媒片在线观看| 久久久久精品国产亚洲av影院| 欧美一级午夜欧美午夜视频| 男女做爰高清免费视频| 国产精品神马午夜福利| 欧美性生活之欧美日韩| 亚洲综合中文字幕久久网址| 亚洲成人免费在线一区| 97免费人妻在线视频| 亚洲午夜福利影院在线免费观看 | 97在线公开免费视频| 亚洲天堂av现在观看| 国产成人综合欧美日韩另类| 中文字幕亚洲精品乱码在线| av成人黄色片在线播放| 欧美精品一区影片在线观看| 91精品一久久香蕉国产| 偷拍福利视频一区二区三区| 成人av在线免费播放| 女人天堂网av免费看| 国产二区日韩成人精品| 日韩国产一区二区三区精品| 国产一级二级三级大胆视频| 蜜臀人妻久久一区二区三| 99久久久国产精品蜜臀 |