目录
- 1、jieba库安装
- 2、jieba库功能介绍
- 3、案例
- 3.1、精确模式
- 3.2、全模式
- 3.3、搜索引擎模式
- 3.4、修改词典
- 3.5、词性标注
- 3.6、统计三国演义中人物出场的次数
jieba 库是优秀的中文分词第三方库,中文文本需要通过分词获得单个的词语
1、jieba库安装
管理员身份运行cmd窗口输入命令:pip install jieba
2、jieba库功能介绍
特征:
支持三种分词模式:
精确模式:试图将句子最精确地切开,适合文本分析
全模式:把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义
搜索引擎模式:在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词
分词功能:
jieba.cut 和 jieba.lcut 方法接受
两个传入参数:
- 第一个参数为需要分词的字符串
- cut_all参数用来控制是否采用全模式
lcut 将返回的对象转化为 list 对象返回
jieba.cut_for_search 和 jieba.lcut_for_search 方法接受一个参数
该方法适合用于搜索引擎构建倒排索引的分词,颗粒度较细
jieba.lcut_for_search 方法返回列表类型
添加自定义词典:
开发者可以指定自己自定义的词典,以便包含jieba词库里没有的词。虽然jieba有新词识别能力,但是自行添加新词可以保证更高的正确率
用法:
使用自定义词典文件:
jieba.load_userdict(file_name) # file_name 是自定义词典的路径
使用jieba在程序中动态修改词典:
jieba.add_word(new_words) # new_words 是想要添加的新词
jieba.del_word(words) # 删除words
关键词提取:
jieba.analyse.extract_tags(sentence,topK) #需要先import jieba.analyse
sentence 为待提取的文本
topK 为返回几个TF/IDF权重最大的关键词,默认是20
词性标注:
jieba.posseg.POSTokenizer(tokenizer=None) 新建自定义分词器,tokenizer参数可指定内部使用的jieba.Tokenizer 分词
jieba.posseg.dt 为默认词性标注分词器
标注句子分词后每个词的词性,采用和ictclas兼容的标记法
3、案例
3.1、精确模式
import jieba
list1 = jieba.lcut("中华人民共和国是一个伟大的国家")
print(list1)
print("精确模式:"+"/".join(list1))
3.2、全模式
list2 = jieba.lcut("中华人民共和国是一个伟大的国家",cut_all = True)
print(list2,end=",")
print("全模式:"+"/".join(list2))
3.3、搜索引擎模式
list3 = jieba.lcut_for_search("中华人民共和国是一个伟大的国家")
print(list3)
print("搜索引擎模式:"+" ".join(list3))
3.4、修改词典
import jieba
text = "中信建投投资公司了一款游戏,中信也投资了一个游戏公司"
word = jieba.lcut(text)
print(word)
# 添加词
jieba.add_word("中信建投")
jieba.add_word("投资公司")
word1 = jieba.lcut(text)
print(word1)
# 删除词
jieba.del_word("中信建投")
word2 = jieba.lcut(text)
print(word2)
3.5、词性标注
import jieba.posseg as pseg
words = pseg.cut("我爱北京天安门")
for i in words:
print(i.word,i.flag)
3.6、统计三国演义中人物出场的次数
三演义文本下载:
import jieba
txt = open("文件路径", "r", encoding='utf-8').read() # 打开并读取文件
words = jieba.lcut(txt) # 使用精确模式对文本进行分词
counts = {} # 通过键值对的形式存储词语及其出现的次数
for word in words:
if len(word) == 1: # 单个词语不计算在内
continue
else:
counts[word] = counts.get(word, 0) + 1 # 遍历所有词语,每出现一次其对应的值加 1
items = list(counts.items()) #将键值对转换成列表
items.sort(key=lambda x: x[1], reverse=True) # 根据词语出现的次数进行从大到小排序
for i in range(15):
word, count = items[i]
print("{0:<10}{1:>5}".format(word, count))
import jieba
excludes = {"将军","却说","荆州","二人","不可","不能","如此","如何"}
txt = open("三国演义.txt", "r", encoding='utf-8').read()
words = jieba.lcut(txt)
counts = {}
for word in words:
if len(word) == 1:
continue
elif word == "诸葛亮" or word == "孔明曰":
rword = "孔明"
elif word == "关公" or word == "云长":
rword = "关羽"
elif word == "玄德" or word == "玄德曰":
rword = "刘备"
elif word == "孟德" or word == "丞相":
rword = "曹操"
else:
rword = word
counts[rword] = counts.get(rword,0) + 1
for i in excludes:
del counts[i]
items = list(counts.items())
items.sort(key=lambda x:x[1], reverse=True)
for i in range(10):
word, count = items[i]
print ("{0:<10}{1:>5}".format(word, count))
相关推荐:
SEO指:如何通过精准优化提高网站流量和转化率,无锡论坛营销推广要多久
SEO到底怎么做?揭秘从零到精通的完整SEO优化攻略,鸟瞰ai
企业营销:如何在竞争激烈的市场中脱颖而出,美装网站Seo优化
SEO数量-如何提升你的网站排名与流量?,射阳seo优化五星服务
SEO北京:数字时代,企业成功的关键,湖南网站建设湖南岚鸿
seo简报什么意思,seo工作汇报 ,万花筒 ai
AI上的文章属于原创吗?人工智能创作内容的归属问题
【BVIP尊享体验:超越奢华,开启专属未来】,珠宝网站建设思路
SEO优化关键技巧:提升网站排名的实战攻略,科大讯飞ai论文写作软件
ChatGPT破解:让AI打破语言与思维的边界,ai模板vis
AI写作免费一键生成5000字:高效创作的革命性工具
【SEO优化全攻略】提升网站流量的终极秘籍,带你轻松玩转搜索引擎优化!,金融网站推广维护
SEO网络营销:如何通过精准优化提升品牌价值,青州建设网站电话
seo网站自学看什么书,seo技术适合自学吗 ,斑马ai阅读
seo涉及什么内容,seo主要包括 ,法医使用ai
常用AI工具,高效智能生活
SEO关键词的选择步骤:让你的网站在搜索引擎中脱颖而出,ai书法化
SEO子-为你的网站注入流量的秘密武器,麻城网站网址优化
seo需要干什么,seo需要具备什么知识 ,ai梦境档案世岛大宅
ChatGPT出现错误503?你需要知道的解决方案和应对策略,ai拉伸字效
打造内容创作新时代:有言AI生成助力创作者释放灵感
AI文章精简-高效提炼与优化你的内容创作,ai quid
SEO有点:揭秘优化之道,提升网站排名的秘诀,广州抖音seo厂家地址
ChatGPT坏了用什么?替代方案,满足你的智能对话需求,星际一的ai
seo深度优化插件是什么,深度优化手机软件 ,ai的缩写
SEO引擎优化方法-让你的网站流量暴增的实战指南,ai智慧树
ChatGPT-4中文免费破解版:无需付费,体验最强AI助手,ai写作生成器官方下载
AI写作的崛起-“只能AI写作”背后的巨大潜力,舞狮摄影ai
SEM有哪几个平台?数字营销的多元选择,AI怎么取消移动间距
Bing搜索不能预览了?搜索引擎的新变革与挑战,ai制作一张窗花
SEO要求:如何优化网站提升搜索引擎排名,助力企业获取更多流量,鹤山区网站运营推广
SEO与SEM:谁才是提升网站流量的王者?,Ai中字体如何变形立体
SEO表格:优化网站排名的秘密武器,大数据推广营销费用多少
SEO挣钱之道:如何通过SEO实现网络盈利,宁晋网站建设商家
Chatget免费网站版无需登录,畅享无限对话体验!,工业 Ai 视觉检测
seo网站页面优化包括什么,seo页面优化技术 ,no ai写作
如何识别文章是否由AI撰写?揭开智能写作的秘密
seo网站排名关键词优化,seo网站关键词优化怎么做 ,ai回廊
seo网站通过什么软件,网站seo软件哪个 ,战团ai
OpenAI银联支付-未来支付新体验,安全便捷全新升级,医学加ai
ChatGPT:基于Transformer技术的语言模型,开创人工智能未来,AI独战OK
SEO如何做?全方位解析提升网站排名的秘诀,AI翻译好处
seo要会些什么,seo需要学些什么内容 ,轻盈ai
ChatGPT网页打不开?快来看看这些解决办法,轻松恢复正常访问!,ai金色包装
seo规范是什么,seo行业标准 ,啊龙ai音乐
优化投入,让企业更具竞争力,怎样推广营销方案
zblog站群,zblog怎么样 ,欧卡2ai汽车如何使用
ChatGPTApp怎么调大字体?提升阅读体验,让文字更清晰,推荐ai音频
seo需要学习什么语言,做seo需要懂什么技术 ,ai软件制作教程
seo适合什么职业,seo有前途么 ,ai小精灵