认识大数据人性化的一面

发表时间:2020/6/8   来源:《文化时代》2020年3期   作者:1陈思雨 2张梦琪 2佟昕
[导读] “大数据”一词泛指从多个来源收集的大量数据,然后进行分析,例如用于预测分析。分析大数据的挑战和注意事项包括认识到缺乏对源数据的系统收集、使用的分析技术的多样性、遗传变异分类和解释的潜在变异。虽然微阵列和最新的下一代测序等先进技术(它们能够同时检测个人的DNA,检测数千个基因和变异)得到了简要的讨论,但人们的注意力更多地集中在分析这些基因组技术产生的大量数据所面临的挑战上。本次审查的主题是评估与大数
 1华北理工大学人工智能学院  河北  唐山  063200;
2华北理工大学外国语学院  河北  唐山  063200
        摘要:“大数据”一词泛指从多个来源收集的大量数据,然后进行分析,例如用于预测分析。分析大数据的挑战和注意事项包括认识到缺乏对源数据的系统收集、使用的分析技术的多样性、遗传变异分类和解释的潜在变异。虽然微阵列和最新的下一代测序等先进技术(它们能够同时检测个人的DNA,检测数千个基因和变异)得到了简要的讨论,但人们的注意力更多地集中在分析这些基因组技术产生的大量数据所面临的挑战上。本次审查的主题是评估与大数据相关的总体挑战,特别是将复杂的基因/基因组检测技术降低到个人水平,同时考虑到数据源的人文方面,并考虑数据的影响将在何处翻译和应用。在这个“人性化”的过程中,需要考虑的因素包括在所有情况下为基因检测提供充分的咨询和同意,以及了解化验的优点和局限性及其解释。
        关键词:大数据;预测分析;数据共享;临床遗传学和基因组学;精密医学
       
       
美国国家癌症研究所(National cancer Institute)将癌症治疗中的精准医疗定义为对癌症的“基因理解”,提供针对个人的特定治疗癌症是由多种因素造成的,既有遗传因素,也有环境因素。肿瘤的发展路径是由肿瘤内和肿瘤内不同的基因变化累积而成的。这些基因变化中有一些是遗传的种系突变,但大多数是由于接触或随机事件导致的体细胞变化,没有经过DNA修复过程的纠正。这些基因变化可能是治疗的靶点,然而基因的变化是异质的和具体的治疗目标可能是罕见的。为了检测这些变化,需要许多患者的许多肿瘤的数据。一般来说,遗传的种系遗传变化可能会增加对癌症的易感性,或者通过直接影响关键蛋白质(如对修复DNA损伤至关重要的蛋白质),或者通过增加对致癌环境因素影响的易感性。这些种系的变化也可能是非常罕见的。因此,需要对大型数据集进行分析,以确定是否与癌症的发展有关联,并确定这些变化在预测风险方面是否有用。对治疗目标和预测分析的研究促进了对大数据集的需求。尽管目前“大数据”一词已被广泛使用,但对于“大数据”的统一或单一定义仍未达成一致。对于“大数据”,在线牛津词典的定义是:“可以通过计算分析来揭示模式、趋势和关联,特别是与人类行为和互动相关的超大数据集。”从本质上讲,“大数据”指的是任何足够大的数据集,足以允许有效地使用基于统计的分析方法来提取感兴趣领域的知识水平。
        大数据的巨大规模,加上其数量的持续增长,对存储提出了挑战。传统上,数据被生成并存储在单独的隔间中,这些隔间之间甚至可能存在质量上的差异。例如,同一组织中的不同部门可能将数据存储在它们自己的数据库中,从而导致“数据竖井”。不同部门的竖井数据的内容可能会重叠,但是使用不同的术语进行编码,这样这些数据就不能“彼此交谈”。这严重阻碍了跨竖井的卫生保健相关数据的综合分析。这些分析对于理解影响健康导向结果的因素至关重要,包括遗传学。

关键的筒仓数据集包括电子健康记录(EHRs),它对于生成趋势和预测模型(包括基因组和药物基因组标记)很有价值。某些类型数据的巨大规模,即,基因组数据,这必须与其他数据类型集成较小的规模,但更大的复杂性,即EHR中包含的表型数据,提出了额外的挑战。
        大型分析数据集的来源,即“大数据”包括来自临床机构和基因检测公司的数据。因此,谁接受检测的潜在选择因素将影响结果和解释。直到最近,癌症易感性综合征的癌症基因测试的顺序被诊断为癌症或有很强的癌症家族史的临床设置,在遗传咨询后,由合格的卫生保健提供者。最近,癌症基因检测,以及其他与健康有关的基因测试,已超出临床设置,直接向消费者与公司广告和提供测试不需要涉及卫生保健提供者,或者与公司给医生提供测试点测试。直接面向消费者的测试的好处是,通过家庭测试的便利性,绕过卫生保健提供者访问的要求,以及更低的成本测试,有可能提高可访问性。与直接面向消费者或消费者驱动的基因测试相比,具有临床来源数据优势的数据集可能具有更高的风险个体。此外,与直接面向消费者生成的数据相比,临床设置更可能具有广泛的家族史信息,这对于解释测试结果至关重要。然而,大量的家族史文献可能或不可能充分或准确地传送到“大数据”汇编。
        与其他医学测试不同,基因测试会对家庭成员产生影响,导致诸如如何向家庭成员传达测试结果以及如何共享数据等问题。遗传管道的这些下游成分说明了强大的人类因素,这一过程最终达到高潮。那些使用大数据的人应该确保个人的偏好得到尊重,并让他们了解到数据可能广泛共享。同样,在应用从“大数据”分析中收集的信息时,应该考虑前面提到的在数据生成活动中方法论问题可能带来的不确定性。
        结论:
        基因检测相关大数据的生成和解释技术的应用为癌症医学的未来带来了希望。技术改善公众健康的潜力是毋庸置疑的。我们的目标是找到一种方法,揭开“大数据”的神秘面纱,让它的受益者、患者和提供者能够更好地做出适当的临床决策。从这个意义上说,我们试图“将大数据人性化”,通过分解其许多组成部分,努力使其意义更容易为非专业人士所理解。
       
        参考文献:
        [1]《多领域专家在高通量基因组数据分析中的合作价值》Meerzaman D,Dunn BK等;
        [2]《流行病学和公共卫生领域的大数据和计算》Salerno J,Knoppers BM等;
        [3]《大数据在药物基因组学:当前的应用,前景和陷阱》Barrot CC,Woillard JB等;
        [4]《大数据在医疗领域的必然应用》 Murdoch TB,Detsky AS等。
       
投稿 打印文章 转寄朋友 留言编辑 收藏文章
  期刊推荐
1/1
转寄给朋友
朋友的昵称:
朋友的邮件地址:
您的昵称:
您的邮件地址:
邮件主题:
推荐理由:

写信给编辑
标题:
内容:
您的昵称:
您的邮件地址: