基于 jieba 和 word_cloud 生成《人民的名义》小说词云-白红宇

基于 jieba 和 word_cloud 生成《人民的名义》小说词云

阅读量：5759 次

发布时间：2019-06-18

本文共 12580 字，大约阅读时间需要 41 分钟。

基于 jieba 和 word_cloud 生成《人民的名义》小说词云

由于词云在反映文本关键信息上的显著优势，在本文中，我选择结合实例为大家介绍一下 Python 中专门用来生成词云的一个库——word_cloud 。

实例中的分析对象就选择为最近大火的电视剧《人民的名义》小说原著，通过词云来分析一下小说各具魅力的人物中，究竟谁的出场率最高，谁是真正的主角。

考虑到 Word_Cloud 的默认处理对象是英文，对中文的分词效果不够理想，所以在实例中还用到了一个强大的中文分词组件——jieba ，在文章中也会给大家进行简单介绍。

一、准备工作

1.1 word_cloud 介绍

首先，为大家介绍一下 word_cloud 库的基本信息。word_cloud 是哥伦比亚大学的Andreas Müller 开发的基于 Python 的词云生成器，同时支持Python2 和 Python3 。 word_cloud 使用的词云生成算法简洁高效，支持任意形状的图片模板，可以自动生成配色。也可以对词云中单词的数量、配色、尺寸、排列方式等一系列参数进行自定义的设定。

在word_cloud 库里，最重要的一个类是 WordCloud 。这个类中的属性包含了词云生成过程中的各项相关参数，方法中则包含了文本分词、词云的生成、绘制等一系列函数。首先，我们来看一下 WordCLoud 的属性：

class wordcloud.WordCloud(font_path=None, width=400, height=200, margin=2, ranks_only=None, prefer_horizontal=0.9, mask=None, scale=1, color_func=None, max_words=200, min_font_size=4, stopwords=None, random_state=None, background_color='black', max_font_size=None, font_step=1, mode='RGB', relative_scaling=0.5, regexp=None, collocations=True, colormap=None, normalize_plurals=True)

可以看到，WordCloud这个函数有22个参数，能够设置词云生成过程中各个方面的参数，我们可以通过设定这些参数的取值来实现我们想要的效果。当然，这么多参数，我们只需要设置我们最关心的几个参数，其余参数取默认值就可以了。这里，简单介绍一下我们将要用到的几个重要参数：

第一个参数是 font_path，字体路径。这个参数用来选择生成词云中文字使用的字体。在Linux环境中，字体默认的是DroidSansMono，如果没有这个字体或者使用的是其他操作系统，都需要下载字体文件，对这个参数赋予字体所在路径。需要注意的是，由于默认字体是英文字体，我们在处理中文文本时，建议使用自己选择的汉字字体。在选择字体的过程中，最好选择字库比较完整的经典字体，如黑体、宋体等字体。若使用一些字库不够完整的特殊字体，容易出现词云中一些汉字无法显示的情况，影响效果。

第二个参数是 mask ,模板图片。这个参数用来选择词云生成形状的模板。默认不设置情况下，生成词云会是一个矩形。选作模板的图片需要是一副二值图像。模板图像矩阵中，白色(#FF 或 #FFFFFF) 的元素位置会被排除，其余的元素位置会被单词填满。也就是说，使用一副黑白图像作为模板时，生成的词云是黑色部分的形状。输入的模板图片的格式支持常用格式如png、jpeg等。

第三个参数是 max_words,最大单词数。顾名思义，这个参数决定了词云中显示的单词的总数上限，我们可以根据具体应用需求来设置这个参数的大小。类似的还有max_font_size（最大字体尺寸）、min_font_size(最小字体尺寸)、backgroud_color(背景颜色)等一系列功能明确的参数，可以根据需要自由设置，没有特殊的限制。

关于 WordCloud 类的属性，以上的介绍已经可以满足我们的基本使用需要，接下来我们来了解一下 WordCloud 类中的主要方法。WordCloud 类中包含的方法如下所示：

方法	简介
fit_words(frequencies)	Create a word_cloud from words and frequencies
generate(text)	Generate wordcloud from text
generate_from_frequencies(frequencies[, …])	Create a word_cloud from words and frequencies
generate_from_text(text)	Generate wordcloud from text
process_text(text)	Splits a long text into words, eliminates the stopwords
recolor([random_state, color_func, colormap])	Recolor existing layout
to_array()	Convert to numpy array
to_file(filename)	Export to image file
to_html()	Export to html file
to_image()	Export to image

在这些方法函数中，本篇将会用到的函数主要是从文本中生成词云的函数 generate(text) 。函数的输入是txt格式的文本文件，输出最终的词云数据。这里需要注意的是，函数输入的文本文件对内容格式是有要求的。文本必须由一个个独立分隔开的词语构成，这样函数才可以对每个词语的出现频率进行统计，生成词云。

在本篇的实例中，我们处理的对象是《人民的名义》小说文本，文本全部由句子构成，不能直接作为 generate 函数的输入值。因此，我们需要对由句子构成的文本进行”分词“的预处理。顾名思义，分词就是将句子分解成若干个独立的词汇。在上表中可以看到，WordCloud 类中提供了实现分词功能的函数 process_text(text)。但是这个函数的设计是主要面向英文文本的分词的，所以对中文的分词效果不能令人满意。

为了解决分词的问题，本篇选择了中文分词工具库 jieba,下面就介绍一下jieba 相关的基本知识。

1.2 Jieba 介绍

Jieba,也就是“结巴”中文分词，是一个非常强大且完善的中文分词组件。Jieba 库有很多语言的实现版本， Python 版本同时支持 Python2 和 Python3。

Jieba的主要功能特性有以下几点：

支持三种分词模式：

精确模式，试图将句子最精确地切开，适合文本分析；

全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；

搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。

支持繁体分词

支持自定义词典

MIT 授权协议

Jieba能够实现分词、添加自定义词典、关键词提取、词性标注、并行分词、Tokenize返回词语在原文的起止位置、ChineseAnalyzer for Whoosh 搜索引擎、命令行分词等一系列非常丰富功能。在本篇当中，我们主要会用到分词、添加自定义词典和关键词提取的功能，下面分别介绍一下这三个功能的基本实现。

1.2.1 分词功能

jieba.cut 方法接受三个输入参数: 需要分词的字符串；cut_all 参数用来控制是否采用全模式；HMM 参数用来控制是否使用 HMM 模型

jieba.cut_for_search 方法接受两个参数：需要分词的字符串；是否使用 HMM 模型。该方法适合用于搜索引擎构建倒排索引的分词，粒度比较细

待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意：不建议直接输入 GBK 字符串，可能无法预料地错误解码成 UTF-8

jieba.cut 以及 jieba.cut_for_search 返回的结构都是一个可迭代的 generator，可以使用 for 循环来获得分词后得到的每一个词语(unicode)，或者用jieba.lcut 以及 jieba.lcut_for_search 直接返回 list

jieba.Tokenizer(dictionary=DEFAULT_DICT) 新建自定义分词器，可用于同时使用不同词典。jieba.dt 为默认分词器，所有全局分词相关函数都是该分词器的映射。

代码示例

# encoding=utf-8import jiebaseg_list = jieba.cut("我来到北京清华大学", cut_all=True)print("Full Mode: " + "/ ".join(seg_list))  # 全模式seg_list = jieba.cut("我来到北京清华大学", cut_all=False)print("Default Mode: " + "/ ".join(seg_list))  # 精确模式seg_list = jieba.cut("他来到了网易杭研大厦")  # 默认是精确模式print(", ".join(seg_list))seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所，后在日本京都大学深造")  # 搜索引擎模式print(", ".join(seg_list))

Building prefix dict from the default dictionary ...Loading model from cache /tmp/jieba.cacheLoading model cost 1.059 seconds.Prefix dict has been built succesfully.Full Mode: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学Default Mode: 我/ 来到/ 北京/ 清华大学他, 来到, 了, 网易, 杭研, 大厦小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, ，, 后, 在, 日本, 京都, 大学, 日本京都大学, 深造

1.2.2 添加自定义词典功能

开发者可以指定自己自定义的词典，以便包含 jieba 词库里没有的词。虽然 jieba 有新词识别能力，但是自行添加新词可以保证更高的正确率

用法： jieba.load_userdict(file_name) # file_name 为文件类对象或自定义词典的路径

词典格式和 dict.txt 一样，一个词占一行；每一行分三部分：词语、词频（可省略）、词性（可省略），用空格隔开，顺序不可颠倒。file_name 若为路径或二进制方式打开的文件，则文件必须为 UTF-8 编码。

词频省略时使用自动计算的能保证分出该词的词频。

1.3.3 关键词提取功能

基于 TF-IDF 算法的关键词抽取

import jieba.analyse

jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())

sentence 为待提取的文本

topK 为返回几个 TF/IDF 权重最大的关键词，默认值为 20

withWeight 为是否一并返回关键词权重值，默认值为 False

allowPOS 仅包括指定词性的词，默认值为空，即不筛选

jieba.analyse.TFIDF(idf_path=None) 新建 TFIDF 实例，idf_path 为 IDF 频率文件

基于 TextRank 算法的关键词抽取

jieba.analyse.textrank(sentence, topK=20, withWeight=False, allowPOS=(‘ns’, ‘n’, ‘vn’, ‘v’)) 直接使用，接口相同，注意默认过滤词性。

jieba.analyse.TextRank() 新建自定义 TextRank 实例

1.3 环境搭建

在对 word_cloud 和 jieba 两个库有了基本的了解之后，我们来学习一下两个库的安装和相关环境的搭建。

1.3.1 word_cloud 的安装

快速安装（使用pip指令）:

pip install wordcloud

使用anaconda安装:

conda install -c wordcloud

手动安装-软件包获取:

wget
unzip master.zip
rm master.zip
cd word_cloud-master

软件包安装:

python setup.py install

1.3.2 jieba 的安装

全自动安装：easy_install jieba 或者 pip install jieba / pip3 install jieba

半自动安装：先下载，解压后运行 python setup.py install

手动安装：将 jieba 目录放置于当前目录或者 site-packages 目录

通过 import jieba 来引用

1.3.3 Anaconda 的使用

个人在这里推荐使用 Anaconda 来配置 Python 开发环境。

Anaconda是专注于数据分析的Python发行版本，包含了conda、Python等190多个科学包及其依赖项。而conda 是开源包（packages）和虚拟环境（environment）的管理系统。

packages 管理：可以使用 conda 来安装、更新、卸载工具包，并且它更关注于数据科学相关的工具包。在安装 anaconda 时就预先集成了像 Numpy、Scipy、 pandas、Scikit-learn 这些在数据分析中常用的包。另外值得一提的是，conda 并不仅仅管理Python的工具包，它也能安装非python的包。比如在新版的 Anaconda 中就可以安装R语言的集成开发环境 Rstudio。

虚拟环境管理：在conda中可以建立多个虚拟环境，用于隔离不同项目所需的不同版本的工具包，以防止版本上的冲突。对纠结于 Python 版本的同学们，我们也可以建立 Python2 和 Python3 两个环境，来分别运行不同版本的 Python 代码。

Anaconda通过管理工具包、开发环境、Python版本，大大简化了工作流程。不仅可以方便地安装、更新、卸载工具包，而且安装时能自动安装相应的依赖包，同时还能使用不同的虚拟环境隔离不同要求的项目。

如果想要安装Anaconda的话，可以通过下载 Anaconda 的安装程序以及查看安装说明,在这里就不再赘述了。

1.4 实现思路

在完成基础知识了解和环境配置后，我们可以来思考一下具体的实现过程了。

我们的目标是生成《人民的名义》小说词云，我们希望词云中的词汇只有角色的名字，没有其他无关词汇，这样才能更好地反映出角色的比重。

我们的处理对象是从网络获得的《人民的名义》小说 txt 文件，编码格式为 utf-8 ,字符数为268375。

根据之前的基础知识，我们不难获得整个程序的实现思路：

分词

小说文本整体分词

构建自定义人名词典

筛选关键词

生成词云，绘制图片

因此，我们只需要设计两个函数。第一个函数是分词函数，用来实现小说的整体分词和人名筛选等功能，获得只包含人名的分词结果。第二个函数就是词云生成函数，使用分词函数的分词结果作为输入，对词云的模板、词量等参数进行设置，输出最终的词云结果，并保存为图片文件。

二、程序设计

2.1 库的导入

首先，程序的开始我们要声明编码方式，并导入需要用到的库文件，代码如下：

#-*- coding:utf-8 -*-#encoding=utf8import codecsimport jiebajieba.load_userdict("namedict.txt")import jieba.analyse as analysefrom wordcloud import WordCloudfrom scipy.misc import imreadfrom os import path

可以看到，我们引入了 codecs,是为了使用 codecs.open() 函数打开文本文件，引用了jieba.analyse 是为了调用其中的 extract_tags 函数来实现关键词的筛选。值得注意的是，在这里，我加载了自定义字典文件 “namedict.txt”。在这个字典文件中，依照温暖的文档要求的格式，记录了21个小说中人物角色的姓名，并标注词性为”nr“，代表名字。下面是部分示例。

侯亮平 nr
沙瑞金 nr
祁同伟 nr
李达康 nr
高育良 nr

通过这个自定义词典的加载，我们可以保证分词过程中，角色名字可以正确完整地被分割出来，并且可以根据词性”nr“,将所有名字筛选出来。

2.2 分词函数的实现

代码如下，代码的原理在注释中有详细介绍：

def seg_sentence(file_name):      with codecs.open(file_name,encoding='utf-8') as f:     #打开文件       original_text = f.read()                   #读取文件内容为字符original_text    wordList = jieba.cut(original_text)          #全文分词，结果存储在wordlist中    print('全文分词完成...')    allow_pos = ('nr',)                           #设置筛选参数为”nr“,名字    tags = jieba.analyse.extract_tags(original_text, topK=30, withWeight=False, allowPOS=allow_pos)                       #从原文文本original_text中，筛选词性为”nr“的前30个词汇作为关键词    print('关键词筛选完成...')    stags=" ".join(tags)                          #将关键词通过空格连接为字符串stags    f2=open(u"stags.txt","w+")    f2.write(stags)    f2.write("\n")    f2.close()                      #将获得的关键词存储到stags.txt文件中（供调试查看）    outstr = ''                                             for word in wordList:                             #遍历全文分词结果wordlist        if word  in stags:                          #与关键词字符串比较，只保留关键词            if len(word) > 1:                       # 去掉长度小于1的词                  if word != '\t':                      outstr += word                      outstr += " "                                                  #将保留下的词输出到字符串outstr中，通过空格连接为字符串    return outstr      print ("生产词云文本...")

2.3 词云生成函数的实现

代码如下，代码的原理在注释中有详细介绍：

# 绘制词云def draw_wordcloud(file_name):   outstr=seg_sentence(file_name)                                                                  #调用分词函数，生成只包含关键词的分词文本outstr,字符串格式   f2=open(u"分词后.txt","w+")   f2.write(outstr)   f2.write("\n")   f2.close()                          #将outstr保存到 分词后.txt文件中 （供调试查看）   font='/home/xplanet/下载/black.ttf'                                                                              #选择字体路径，这里使用了黑体   color_mask = imread("/home/xplanet/下载/star.jpeg")                                                 #读取模板图片，这里使用了一张五角星图片   cloud = WordCloud(font_path=font,background_color='white',mask=color_mask,max_words=100,max_font_size=60)                        #设置词云参数，字体，模板，背景白色，最大词量100个，最大字体尺寸60   word_cloud = cloud.generate(outstr)                  # 产生词云数据 word_cloud   print ("词云完成...")   word_cloud.to_file("w_cloud.jpg")                    #词云保存为图片w_cloud.jpg   print ("词云保存成功...")   return word_cloud

2.4 函数的调用

两个主要函数定义完成后，就可以设置小说文本路径，直接调用词云生成函数生成词云了。

这里需要的代码也很简单,如下所示：

file_name = '/home/xplanet/下载/人民的名义2.txt'         #设置小说所在路径word_cloud=draw_wordcloud(file_name)                                                     #调用词云生成函数，生成词云word_cloud，并保存成为图片import matplotlib.pyplot as pltplt.imshow(word_cloud)plt.axis("off")plt.show()                                      #引入matplotlib模块是为了显示词云图

三、实践结果

将上述代码编写到一个Python文件txtwc.py中，如下所示:

# -*- coding:utf-8 -*-#encoding=utf8import codecsimport jiebajieba.load_userdict("namedict.txt")import jieba.analyse as analysefrom wordcloud import WordCloudfrom scipy.misc import imreadfrom os import pathdef seg_sentence(file_name):      with codecs.open(file_name,encoding='utf-8') as f:     #打开文件       original_text = f.read()                   #读取文件内容为字符串original_text    wordList = jieba.cut(original_text)             #全文分词，结果存储在wordlist中    print('全文分词完成...')    allow_pos = ('nr',)                                  #设置筛选参数为”nr“,名字    tags = jieba.analyse.extract_tags(original_text, topK=30, withWeight=False, allowPOS=allow_pos)                        #从原文文本original_text中，筛选词性为”nr“的前30个词汇作为关键词    print('关键词筛选完成...')    stags=" ".join(tags)                         #将关键词通过空格连接为字符串stags    f2=open(u"stags.txt","w+")    f2.write(stags)    f2.write("\n")    f2.close()                      #将获得的关键词存储到stags.txt文件中（供调试查看）    outstr = ''                                             for word in wordList:                               #遍历全文分词结果wordlist        if word  in stags:                          #与关键词字符串比较，只保留关键词            if len(word) > 1:                               # 去掉长度小于1的词                  if word != '\t':                      outstr += word                      outstr += " "                                                  #将保留下的词输出到字符串outstr中，通过空格连接为字符串    return outstr      print ("生产词云文本...")# 绘制词云def draw_wordcloud(file_name):   outstr=seg_sentence(file_name)                                   #调用分词函数，生成只包含关键词的分词文本outstr,字符串格式   f2=open(u"分词后.txt","w+")   f2.write(outstr)   f2.write("\n")   f2.close()                    #将outstr保存到 分词后.txt文件中 （供调试查看）   font='/home/xplanet/下载/black.ttf'                  #选择字体路径，这里使用了黑体   color_mask = imread("/home/xplanet/下载/star.jpeg")                                                 #读取模板图片，这里使用了一张五角星图片   cloud = WordCloud(font_path=font,background_color='white',mask=color_mask,max_words=100,max_font_size=60)                      #设置词云参数，字体，模板，背景白色，最大词量100个，最大字体尺寸60   word_cloud = cloud.generate(outstr)                # 产生词云数据 word_cloud   print ("词云完成...")   word_cloud.to_file("w_cloud.jpg")                                           #词云保存为图片w_cloud.jpg   print ("词云保存成功...")   return word_cloudfile_name = '/home/xplanet/下载/人民的名义2.txt'         #设置小说所在路径word_cloud=draw_wordcloud(file_name)                                                      #调用词云生成函数，生成词云word_cloud，并保存成为图片import matplotlib.pyplot as pltplt.imshow(word_cloud)plt.axis("off")plt.show()                                       #引入matplotlib模块是为了显示词云图

运行文件，得到结果如下图所示：