摘要:2019年4月视觉中国发布的一张黑洞照片的相关版权引发热议,探究舆论热点有利于寻找其中的根本问题,并探讨如何解决。
关键词:黑洞;视觉中国;照片;版权
一、引言
2019年4月11日,黑洞首张图片曝光于世间,此张照片发布于“视觉中国”的网站上,但视觉中国在图片下方陈述此张黑洞图片版权归“视觉中国”公司所有,未经许可,不可做商业用途。此言论引起了群众的质疑,使视觉中国陷入了舆论风波。而运用python技术进行爬取网络中关于此次黑洞与视觉中国舆论风波的关键词,并进行可视化处理,有利于确定群众对此次事件的关注点。
二、背景介绍
(一)黑洞照片
黑洞是现代广义相对论中,宇宙空间内存在的一种天体。黑洞的引力很大,使得视界内的逃逸速度大于光速。“黑洞是时空曲率大到光都无法从其事件视界逃脱的天体”。而拍摄黑洞照片的目的是为了确认黑洞的存在,并帮助人们了解黑洞。此张照片是由200位天文学家运用设置在四个大洲的八个望远镜观测到的,天文学家将此次拍摄项目称为EHT(Event Horizon Telescope).
(二)视觉中国
“视觉中国”是中国的一家专注于互联网科技和文创产品的公司,在2019年4月10日,“视觉中国”在平台上公布了首张黑洞照片,并标注如用商业用途,需向“视觉中国”付费。但这张黑洞图片来自于EHT项目的天文学家,“视觉中国”只是作为合作伙伴获得了编辑使用权,并不存在权利让其他使用者用黑洞照片需要付费。
三、分析方法
本文将基于python工具,使用其中的置入模块,对从百度搜索引擎以及知乎中拉取的前五十篇以同样关键词搜索出来的文章进行处理,经过一系列数据的清洗整合,以及关键词的提取,获得群众及媒体对于黑洞-视觉中国这一事件所关注的侧重点的关键词词云及频率,从而分析黑洞照片这一事件中视觉中国的溢出效应。
四、分析过程
为了清楚的了解民众以及各大媒体的关注点以及两者之间的关注点是否有所不同,本文拟采用词云以及词频来表示两房的关注点和关注点区别。
在开始代码实验之前,将以黑洞视觉中国为关键词,在百度搜索各大媒体的相关文章,根据热度以及点击量由高到低的顺序拉取了前50篇文章,同时以相同的关键词,在知乎搜索相关个人账号发布的相关文章,根据热度,点击量以及点赞量由高到低的顺序拉取了前20篇文章。(分别以media以及personal建立txt文档。)
考虑到待处理文本为中文文本,需要提前通过cmd 利用pip插入jieba中文分词模块。此外,仅仅电脑导入是不够的,还需要导入至代码软件中。
在处理中文文本时,还需要进行的一个步骤就是停用词过滤,目的是过滤分词结果中的噪声(例如我们,的,什么,是等等),这是文本分析之前预处理的一个很实用的方法。那么,我们先进行停用词表的加载。第一步,因为停用词表的使用是有要求的,需要以一词一行的格式才能被使用,所以需要定义一个函数,使得停用词表在函数的作用下,能够被分行处理。(在进行函数定义的时候,需要注意,处理的是中文文本,所以编码格式encode是’gbk’格式,而非’utf-8’)
代码一 分行处理代码
.png)
完成后,本地停用词表显示格式将会为一词一行。停用词表,可从网上获取,也可自行定义,由于所有文章都是围绕视觉中国这一关键词来撰写的,所以经过讨论,决定将“视觉中国”加入停用词列表。第二步,继续定义一个函数,使得待处理文本能够在函数的作用下,其中的一些与文本内容无关的语气词以及无意义的序数词能够被删除,代码显示为:
代码二 停用词剔除
.png)
运行代码,如果函数代码编写正确并且设置成功,那么将不会有任何反应。经过以上两步,停用词表已经加载完成,接下来将利用jieba模块对待处理文本进行处理。通过“print()”命令检查预处理步骤的结果是否理想。正常情况下通过“print”命令可以看到,结果符合处理之前的设想和预期,无意义叙述词已被去除,中文分词也完成的比较理想。那么接下来可以正式进行词云制作以及关键词频重的获取了。首先要进行的是词云的制作,预期呈现的结果为一张图片,所以需要提前导入matplotlib和numpy模块,与此同时,制作词云图还有一个特殊的模块,wordcloud模块,都需要提前导入电脑及处理工具。(由于词云图是以中文为基础的,所以需要准备好字体库,这里以simsun.ttf为例)
代码四 中文词云制作
.png)
经过代码成功运行之后,显示结果如下:
图一 民众方面关键词词云
.png)
从图中可以很清楚的看到,个人账号发布文章的关键词出现频次都通过字体大小呈现出来,为使结果更有说服力,再利用TF-IDF对文本进行关键词提取,以佐证词云图绘制的准确性,仍然是利用jieba模块,首先读入处理后的文本,然后设置参数:
代码五 TF-IDF获取关键词词频
运行结果如下:
图二 民众方面关键词词频
.png)
从图中可以很清楚的看到出现频次最高的前二十个词语,同时比照之前制作的词云图,可以很明确的得出知乎APP上的个人用户对与黑洞-视觉中国事件的关注点是什么。那么各大媒体关注内容也是一样的吗?与此同时可以利用相同的代码,进行一样的处理步骤,获得媒体对于这次事件关注点,在于个人关注点进行比较,再次运行代码,将其中的待处理文本,修改为媒体方面的文章。可以得出结果如下图:
图三 媒体方面关键词词云
与此同时,关键词出现频次由高到低依次如下图:
图四 媒体方面关键词词频
将媒体与个人关键词词云与关键词频次进行对比,可以得出两者关注点略有不同
五、分析结果与结论
通过python爬取网络中关于此次百度引擎的个人搜索的关键词和媒体发布的文章的关键词,分析关键词出现的频率并进行高低排序,可以直观的从词云图片里看出两者关注的侧重点的区别。
由分析可知,最值得群众个人关注与媒体关注的是这次黑洞图片的版权,但是“版权”在媒体文章中出现的频次要高于个人搜索的关键词在“版权”出现的频次。关注方面最主要的不同在于媒体对于“国徽”、“国旗”的使用较为频繁,而群众对于“摄影师”和“平台”给予了较多的关注。即媒体侧重于此次事件对于国家的影响,而群众更侧重于此次事件是如何发生的。
参考文献
[1]项博良,唐淳淳,钱前,曹健东.基于网络爬虫的就业数据分析[J].智能计算机与应用,2020,10(01):223-226+230.
[2]李玉香,王孟玉,涂宇晰.基于python的网络爬虫技术研究[J].信息技术与信息化,2019(12):143-145.
[3]裴丽丽.基于Python对豆瓣电影数据爬虫的设计与实现[J].电子技术与软件工程,2019(13):176-177.
[4]weixin_34352005.如何用python做中文分词[EB/OL].https://me.csdn.net/weixin_34352005. 2017-06-09.
[5]王树义.如何用python做词云?[EB/OL]. https://www.jianshu.com/p/e4b24a734ccc.2017.06.01.
作者简介:
沈周雅(2000-),女,汉族,江苏南通人,安徽财经大学统计与应用数学学院,2018级本科生,数据科学与大数据技术专业
杜嘉韵(1998-),女,汉族,甘肃兰州人,安徽财经大学金融学院,2016级本科生,国际金融专业
赵心怡(2000-),女,汉族,安徽淮南人,安徽财经大学金融学院,2018级本科生,金融工程专业
本文系 安徽财经大学大学生创新创业训练计划资助,项目编号:S201910378543