贵州贵阳学院阳明学与黔学研究院 徐瑀琨 550000
摘要:本文采用CiteSpace软件对国际大数据伦理研究文献数据进行知识图谱的分析。自从2009年以来,随着大数据的广泛应用引发了大量的伦理问题。在2019年7月12日人民日报曾整版刊登了信息时代的伦理审视,对大数据带来的伦理问题挑战进行探讨。由此可见,对大数据的伦理问题研究已经成为当前的一个热点,本文研究的是国际大数据伦理研究现状与发展趋势,主要是对国际重要的学术文献进行知识图谱的研究,指明当前发展的现状和未来发展的趋势。同时大数据技术的应用,对于知识的探索和创新有着巨大的价值。但给我们的生活和思维方式进行变革的同时也带来了一系列的伦理问题,这需要我们正确的思考与对待。大数据对我们生活所带来不可控制的影响是不可忽视的一个方面,这些问题在未来我们也需要进行更加深入的探讨。
关键词:大数据;伦理;CiteSpace;知识图谱
1研究方法
本文设置检索式为“TS=(ethic* OR moral* OR morality* OR dharma) AND TS=(big data*)”,设置搜索时间范围为2000年到2021年,文本格式为全文本格式。在Web of Science核心数据库中搜索到大数据伦理的研究文献共572条,将此作为知识图谱分析的数据基础。本文使用CiteSpace软件对大数据伦理研究文献进行分析,并结合文献计量学和内容分析的方法,从而揭示出大数据伦理研究的现状以及未来发展的趋势。首先,使用文献计量学和内容分析的方法,分析出国际大数据伦理研究文献的年度、期刊和学术研究机构的分布情况。然后,使用CiteSpace软件对大数据伦理研究文献进行可视化分析,从而揭示出文献、作者和刊物的共被引关系以及机构和关键词的关系。
2大数据伦理研究文献知识图谱分析
2.1有影响的文献
利用CiteSpace软件对搜索到的572条关于大数据伦理的研究文献数据近行共被引分析(Cited Reference),生成了国际大数据伦理研究文献的共被引图谱,如图1所示。
图1 大数据伦理研究文献共被引图谱
图中的圆圈表示大数据伦理研究文献的结点,圆圈的大小表示被引次数的多少,圆圈越大被引次数越多。结点的颜色对照顶部时间条的颜色,颜色越暖表示时间越是近,圆圈的厚度表示该年被引频次的多少,厚度越厚表示被引频次越高。
(1)高被引文献分析
一篇文献的被引频次越高,代表此文献在大数据伦理研究领域内具有重要的影响作用,也体现出该文献是研究该领域的核心。表1列出了关于大数据伦理研究领域被引超过16次的文献。其中Boyd D(2012)共被引频次最高,达到了48次,他指出大数据时代已经来临,各行各业的快速发展产生了大量的信息,这些大量信息的产生究竟是能够更好的服务于我们生活,还是会面对隐私入侵和入侵式营销等伦理风险的挑战。对此作者指出当我们面对这种社会新兴技术现象的产生,我们需要提出批判性的假设和质疑。因此面对大数据带来的种种风险挑战,我们需要进行大数据相关的伦理研究并指定相应的大数据伦理规范准则[1]。
Mittelstadt BD(2016)的引用到达36次,指出当今社会收集和分析数据的能力正在呈指数上涨,但是大数据带来信息快速增长的同时也对信息的稳定造成了破坏。当前大数据伦理的含义相对滞后,为填补这方面的空白对大数据伦理进行了全面的分析。在文中提出了11个主题为新兴的大数据实践的道德评估和治理提供了一个完整的关键框架[2]。
Lazer D(2014)指出谷歌流感趋势成为了头条新闻,但并非是创建者最初所期望的。谷歌流感趋势被视为大数据的典型应用,我们可以从这个错误中吸取哪些教训[3]。
Wilkinson MD(2016)指出数据再用成为当前迫切需要提高的事情。学术界、工业界、资助机构和学术出版商共同制定了公平数据原则。公平原则强调增强机器自动查找和使用数据的能力,同时支持个人再用数据。这篇报道是关于公平数据原则的第一次正式发布,包括了这些原则背后的基本原理,以及社区中一些范例的实现[4]。
Mayer-Schonberger V(2013)在这篇采访报道中指出大数据存在大量优点的同时也具有不可否认的缺点,存在着成本不切实际,对于个人隐私(健康和疾病的状况)产生种种不公平的现象。但大数据是社会注定的命运,因此我们只能寻找某种制度来达到相对的公平[5]。
Kaye J(2015)在文中指出随着信息技术的应用,生物医学研究正在发生着变化,信息技术使得更多的数据以前所未有的的规模进行分析。文中主要是围绕动态同意这一话题展开。动态同意的核心是一个个性化的数字通信接口,连接着研究人员和参与者,将参与者置于决策的核心。该界面促进了双向沟通,以刺激更多的参与者群体,个人可以定制和管理自己的同意偏好。动态同意的技术架构包括一些组件,这些组件可以安全地加密敏感数据,并在与第三方共享数据和样本时,允许参与者的同意偏好与数据和样本一起传输。除了提高透明度和公众信任之外,该系统还通过简化招聘和使参与者更有效地重新联系而使研究人员受益。在这个动态同意中数据安全也就显得格外的重要,需要我们更好的解决数据安全问题[6]。
Murdoch TB(2013)随着数字化收集和储存的迅速扩大,数字管理和分析科学也跟着不断的发展。通过组织将这些资源转化为信息和资源,计算机科学家发明了“大数据”这一概念。现在大数据已经广泛的应用于我们的生活,包含天文学、零售销售、搜索引擎和政治活动。但同时也需要注意数字资源快速发展应用的同时带来的数字资源的安全问题,包括公司数据泄露,个人隐私被盗等问题[7]。
(2)突现引文分析
表1 大数据伦理研究突现引文
突现引文的分析主要是用来表达一篇文献在某个时间段内突然被引率上升或者下降的现象。一篇文献的被引率突然上升代表着这篇文献正在突然变热,反之则代表突然遇冷。突现引文的分析能够找到当前研究的热门领域和研究前沿。本文利用CiteSpace对大数据伦理研究文献进行了突现引文的分析,结果如表2所示。Gymrek M(2013)、Lazer D(2014)、Ginsberg J(2009)、Bulter D(2013)、Mayer-Schonberger V(2013)、Khoury MJ (2014)、Wilkinson MD(2016)、ONeil C(2016)、Char DS(2018)、Mittelstadt BD(2016)和Salerno J(2017)这些文献的突发性比较强。这就说明这些文献在大数据伦理研究领域起到了关键性的作用。
在2014年到2016年期间,Gymrek M(2013)、Lazer D(2014)、Ginsberg J(2009)、Bulter D(2013)和Mayer-Schonberger V(2013)等文献引文量突现。这些文章主要讲述的是大数据在医疗健康、基因监测等方面的伦理问题。这就说明了这一研究领域的伦理问题值得我们探讨。Gymrek M(2013)指出通过遗传家谱数据库的跟踪可以对参与者的身高进行有效的追踪,从此进一步说明了通过大数据的追踪这一技术是可行的[8]。
Lazer D(2014)在这主要说明的是谷歌流感趋(GFT)的问题,这个流感追踪系统的创建并没有达到最初设计者想要达到的目的。但是GFT通常被当成了大数据应用的典范,因为它在带来一定帮助的同时,也出现了各种数据泄露等的伦理风险挑战,我们可以从中吸取一定的教训。
Ginsberg J(2009)文中说明季节性流感是当前世界公共卫生的重大问题,每年有成千上万的人患上各种呼吸道疾病,24万到50万人死亡。改善早期发现的方法是以在线搜索引擎查询的方式检测健康,以避免感染各种呼吸道疾病。通过大量用户高频率的提交相关信息,可以有效的检测该地区的流感发生情况。这种技术手段在当今的新型冠状病毒中得到了良好的使用,通过有效数据的使用能够更好的避免疾病的扩散,使得疾病得到更好的控制[9]。
Butler D(2013)同样说明的是利用谷歌的监测系统来监视流感扩散的趋势。但是这种监测只能作为一种补充而不能代替传统的流行病学检测网络。这种监测系统作为一种数据方面的补充,但同时也存在着数据泄露,私隐被盗等不足的方面,这些是值得我们现在思考的[10]。
Mayer-Schonberger V(2013)在文中说明曾经的全球定位系统信息和疾病流行数据是很难进行解决的难题,但当有了大数据之后,这些问题在数小时之内就得到了很好的解决。当今社会大数据对于公众的健康存在着潜在的影响,但要将有效的信息从那么多数据中分离出来也是不易的,能够更好的将信息转化为社会福祉,这是我们现在必须要解决的一个挑战。
在2016到2021年期间,Khoury MJ (2014)、Wilkinson MD(2016)、ONeil C(2016)、Char DS(2018)、Mittelstadt BD(2016)和Salerno J(2017)等文献引文量突现。 这几篇文献主要阐述的不仅包含着生物医学伦理,同时也有关于教育、商业等方面的大数据伦理观。
Wilkinson MD(2016)主要阐述的关于数据再用的相关信息,同时强调了数据再用产生的公平原则,这篇文章是关于这方面的第一次正式发布。
(3)高中心性引文分析
大数据伦理研究领域中高中介中心性文献结点可以起到衔接不同研究聚类的作用,它们能够促进在大数据伦理研究交流中的衔接作用。其中中介中心性最高的文献是Collins FS(2015)达到了0.11,这里所说的是为了远离癌症和糖尿病等疾病实施精准医疗计划,通过建立大规模的生物数据库进行大量的数据分析,用以进行精准医疗的创新。同时创建“癌症知识网络”,以数据形式储存由此产生的分子和医疗数据,将这些数据传递给科学家、医疗保健者和患者,以取得突破性的进展[12]。
此外Vayena E(2015)在文献中指出数字疾病监测给全球公共卫生带来切实好处的同时,也带来了重大的道德挑战。主要是关于个人权力和自由(如隐私权),这要求我们在贫富差距较大的地区收集和处理数据的方式要尊重不同地区和社区人民的权力和利益,要尊重当地的风俗习惯与文化。比如隐私的标准在不同的地区有着不同的标准,我们需要格外的注意。我们要将伦理学和方法论稳健的联系在一起,做到使用科学的方法来收集和处理这些数据[13]。
Cohen IG(2014)主要研究的是预测分析,即使用电子算法实时预测未来事件,使得利用大数据的力量改善病人的健康和降低医疗保健成本成为可能。但这一方法同时也给政策、道德和法律等方面带来了挑战。会在没有经过患者本人同意的情况之下收集完患者的信息,这是值得当前探讨和深思的问题[14]。
这些文献主要是将大数据用于医疗保健事业中,但其中涉及了很多有关大数据伦理的问题,因此值得我们前去探究,应使用何种应对之策去解决当前产生的这些伦理问题。
2.2重要作者分析
其中引用频次最高的5位作者是Boyd D(Freq=50)、Vayena E(Freq=49)、Mittelstadt BD(Freq=41)、Lazer D(Freq=34)、Kaye J(Freq=33)和Collins FS(Freq=28)。其中Freq指的是作者被引频次,不同的颜色代表不同的年限(如图上部时间轴所示),时间越暖代表时间越近。高频被引用作者代表着他们在该领域的研究产生了重要的影响。Boyd D主要是对大数据的恶意营销入侵方面的道德挑战进行了讲述。Vayena E则是对数字疾病监测方面做出了伦理方面的贡献,将伦理学与医疗方面的数据健康相结合,尊重了患者的隐私权与人权。这些专家的主要研究点都是关于将大数据用于医疗保健方面,包括疾病的监测、未来的发病率的分析、大数据分析质料疾病等。但在使用的过程中难免会遇到数据的恶意收集和处理以及信息的泄露等道德挑战,这也是我们现在所需要解决的大数据伦理的问题,也对未来的大数据伦理有了一定的展望,是我们所必须承担的责任。
其中突发性最高的5位作者分别为Gymerk M(Burst=3.6604)、Laney D(Burst=2.8153)、Knoppers BM(Burst=3.3622)、Mayer-Schonberger V(Burst=3.5058)和Ginsberg J(Burst=3.2648)说明他们在大数据伦理前沿动态中扮演者重要的角色。其中中介中心性最高的5位作者分别为Khoury MJ(Centrality=0.15)、Butler D(Centrality=0.12)、Hayden EC(Centrality=0.12)、Collins FS(Centrality=0.11)和Mcafee A(Centrality=0.10)说明这些作者在促进人工智能伦理的传播做出过较大的贡献。
2.3 大数据伦理研究关键词贡献图谱
对大数据伦理文献的关键词进行分析,可以找到该研究领域的知识网络关系,挖掘到大数据伦理研究领域的热点研究方向和知识结构的框架。近年来大数据伦理研究领域的热门主题包括大数据(Freq=257)、伦理(Freq=117)、隐私(Freq=67)、健康(Freq=43)、人工智能(Freq=41)、挑战(Freq=33)、核心(Freq=31)和数据分享(Freq=28)等。从中可以看出大数据伦理主要是存在于医疗健康、人工智能、个人隐私等方面,我们要对这些方面的问题进行哲学的思考,实现伦理规则在大数据领域的更好实现途径。
2.4 聚类分析
在大数据伦理研究文献共被引分析的基础上按关键词进行聚类分析。形成的主要研究聚类有人工智能(#0artificial intelligence)、隐私(#1privacy)、起生物(#2biobanks)、循环经济(#3circular economy)、数字农业(#4digital agriculture)、文化生态系统服务(#5cultural ecosystem services)、利益冲突(#6conflict of interest)、定性研究(#7qualitative research)、远程医疗应用(#8telemedicine use)、艾滋病(#9vih/aids)、知识库(#11knowledge base)、癌症研究(#12cancer research)等12个研究聚类,其中不同颜色的连接点的线代表着不同的时间。可以看出最早的大数据伦理存在于人工只能的应用中和某些隐私的泄露等,但随着时间的发展大数据伦理应用到了医疗健康事业之中,用于远程医疗,数据监测和大数据对疾病的分析等。
经过分析可以得出关于人工智能、隐私、起生物、循环经济、数字农业、物化生态系统服务和利益冲突等聚类的文献发生的共被引现在比较密集。这些连接点构成了大数据伦理的重要研究方向和领域。这说明大数据伦理正在向着生物医疗健康产业方向的转化,这些产业中的伦理问题近日受到了社会的关注。当这些产业产生一些道德方面的挑战的时候,我们如何能规避这些风险,这是未来关注的焦点问题。
3.研究发现
大数据指无法在一定时间范围内用常规软件进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现了和流程优化能力的海量、高增长率和信息资产。但大数据带来的最大的伦理危机是个人隐私权问题。其中一般包括两个方面,第一个方面是数据采集中的伦理问题,以往的数据采集都是经过被采集人的同意才能进行的,而在大数据时代数据都被智能设备自动采集,无需经过被采集者的同意。另一个方面是数据使用过程中的隐私问题,大数据时代的数据可以永久被保存于数据库中,这些数据可以经过长期反复的使用,这样会将本来匿名的信息被挖掘出背后的被采集人。因此我们要着重注意关于这方面的伦理道德问题,并采取相应的应对之策。
3.1大数据伦理研究发展的脉络
1950年到1970年,信息技术进入框架化;1970年到1990年,信息技术进入数据化;1990到2010+年,信息技术进入网络化;当今社会信息进入智慧化,移动互联网、云计算、物联网、大数据进入了大家的视野。拥有了新的大数据思维方式和方法学;新的大数据生态系统和服务模式;新的大数据采集、存储、管理、计算和安全技术。但随着大数据的发展历程,伦理问题也是形影相伴的。出现在了个人隐私的泄露,“精准营销”,“社会性死亡”等道德挑战。对于这些问题首先所要解决的就是数据的存储安全问题,保证数据库的安全是大数据时代最重要的问题之一。其次要在信息被采集者主观同意的情况之下才能对其进行数据采集,否则将违背人权。这会给人与人之间的正常生活交流带来巨大的冲击,造成巨大的社会危机。
3.2大数据伦理研究未来发展的趋势
从国际上关于大数据伦理研究的知识图谱来看,关于大数据伦理的研究才处于起步阶段。由此我们可以推断未来大数据将会更加广泛的应用于各行各业之中,与我们的日常生活所息息相关。因此大数据也会引发更多种多样的伦理问题。就如亚里士多德在《尼各马可伦理学》中所言“每种技艺与研究,同样地,人的每种实践与选择,都以某种善为目的[15]。”由此我们可以看出,大数据的应用其目的是造福人们的日常生活,它的出发点也同样是善的,因此我们要规避大数据在使用中的道德挑战。同样在伦理学问题上,马克思恩格斯虽然也重视发挥人的“抽象力”,但特别强调要从现实生活出发,从现实的人的物质生产和现实交往出发来探讨道德的本质、发展规律及其功能作用[16]。因此我们要承认大数据的发展是历史发展的必然趋势,这是无法逆转的我们也要正视这样的发展规律,所以我们也要正视发展过程中所遇到各种伦理挑战,我们现在所要做的各种努力都是为了确保人的“自由”的发展。
虽然目前关于大数据伦理有一些关于伦理道德方面的思考,但是还会有一些非常重要的问题值得我们更加深入的探讨。根据目前的研究文献进行推断大数据将会更加深入的应用于医疗健康事业中,医生可以更加全面的分析全世界的病例,使得医疗技术得到更大台阶的提升,真正的做到精准医疗。但同时也需要建设更加安全完备的数据库,使得患者的个人信息得到更好的保存。但是关于医疗健康产业的大数据伦理远不止个人信息的保护,人类将如何更好的处理大数据时代产生的伦理问题,这仍然需要进行仔细的思考。
参考文献
[1]Danah Boyd, Kate Crawford. Critical Questions for Big Data[J]. Information Communication & Society,2012,15(5):662-679.
[2]Brent Daniel Mittelstadt, Luciano Floridi. The Ethics of Big Data: Current and Foreseeable Issues in Biomedical Contexts[J].Science and Engineering Ethics,2016,5(23):303-341.
[3]David Lazer, Ryan Kennedy, Gary King, Alessandro Vespignani. The Parable of Google Flu: Traps in Big Data Analysis[J]. Science,2014,343:1203-1205.
[4]Mark D. Wilkinson. The Fair Guiding Principles for Scientific Data Management and Stewardship[J].Scientific Data,2016,15(160018).
[5]Mayer-Schonberger V. A Revolution That Will Transform How We Live, Work, and Think; An Interview with the Authors of Big Data[J].Big Data Revolution,2013,1(2):73-77.
[6]Kaye Jane. Dynamic consent: a patient interface for twenty-first century research networks[J].European Journal of Human Genetics,2015,23(2):141-146.
[7]Murdoch Travis B, Detsky Allan S. The Inevitable Application of Big Data to Health Care[J].Jama-Journal of The American Medical Association,2013,309(13):1351-1352.
[8]Melissa Gymrek, Amy L.McGuire, David Golan, Eran Halperin, Yaniv Erlich. Identifying Personal Genomes by Surname Inference[J].Science,2013,339(6119):321-324.
[9]Jeremy Ginsberg, Mattew H.Mohebbi, Rajan S.Patel, Lynnette Brammer, Mark S.Smolinski, Larry Brilliant. Detecting Influenza Epidemics Using Search Engine Query Data[J].Nature,2009,457(7232):1012-U4.
[10]Declan Butler. When Google got flu wrong[J]. Nature,2013,494(7436):155-156.
[11]Francis S.Collins,M.D.,Ph.D.,Harold Varmus,M.D. A New Initiative on Precision Medicine[J]. The New England Journal of Medicine,2015,372:793-795.
[12]Effy Vayena, Alessandro Blasimme. Health Research with Big Data: Time for Systemic Oversight[J]. Journal of Law,Medicine&Ethics,2018,46(1):119-129.
[14]Glenn Cohen, Ruben Amarasingham, Anand Shah, Bin Xie, Bernard Lo .The Legal And Ethical Concerns That Arise From Using Complex Predictive Analytics In Health Care[J].Health Affairs,2014,33(7):1139-1147.
[15](古希腊)亚里士多德.尼各马可伦理学 [M]. 廖申白译注 . 北京 : 商务印书馆 ,2019.
[16]李培超.马克思恩格斯经典著作中的伦理学领域[N].光明日报,2018-05-21(15).
作者简介:徐瑀琨(1996.03-),男,汉族,江苏南通,贵阳学院阳明学与黔学研究院,哲学硕士,人工智能伦理。