医疗大数据的概念及分析(精准医疗大数据未来发展趋势)

精准医疗是以个体化医疗为宗旨的新型医学概念与医疗模式。

精准医疗的本质是通过生物组学和其他医学前沿技术,对大样本人群与特定疾病类型从基因型到表型各个方面的数据进行整合分析与标准化处理,建立不同数据之间的关联性和差异性,对病理发生发展的过程建立定量模型,提出假设与验证,从而寻找到特定人群甚至个体疾病的精确原因和治疗靶点,最终实现对疾病和特定患者进行个性化精准预防和治疗的目的。

目前,关于精准医疗大数据的定义尚未统一,笔者认为精准医疗大数据指将组学数据与临床医学数据相结合,通过基因组、蛋白质组等组学技术,结合自然语言处理、深度神经网络学习等医学机器学习前沿技术对其进行分析挖掘,从而精确寻找到疾病原因和治疗靶点,并对一种疾病不同状态和过程进行精确亚分类,最终实现对疾病和特定患者进行个性化精准治疗的目的,提高疾病诊治与预防的效益。整合临床与组学数据是精准医疗大数据发展的必然趋势。

医疗大数据的概念及分析-1

精准医疗大数据组成

精准医疗大数据呈现数量巨大、增长迅速、质量控制困难、来源广泛繁杂、难以标准化与结构化等特点,在数据挖掘分析过程中,由于生物医学大数据具有数据种类繁多、内部结构高维复杂、内涵丰富、数据相对分散、难以高维度多层次交汇共享等特点,从而导致难以挖掘生物医学大数据的潜在高价值。

在“新基建”的政策春风下,大数据发展迎来新机遇。当前,大数据体系的底层技术框架已基本成熟。大数据技术正逐步成为支撑型的基础设施,其发展方向也开始向提升效率转变,并逐步向个性化的上层应用聚焦,技术的融合趋势愈发明显。

医疗大数据的概念及分析-2

大数据5V特点

01 流批融合:平衡计算性价比的最优解

流处理能够有效处理即时变化的信息,从而反映出信息热点的实时动态变化,而离线批处理更能够体现历史数据的累加反馈。

随着技术架构的演进,流批融合计算正在成为趋势,并不断向更实时、更高效的计算推进,以支撑更丰富的大数据处理需求。流计算的产生来源于对数据加工时效性的严苛要求。数据的价值随时间流逝而降低时,就必须在数据产生后尽可能快地对其进行处理,如实时监控、风控预警等。

近年来出现的Apache Flink,则借助了流处理的思想来实现批处理,很好地实现了流批融合计算,国内包括阿里、腾讯、百度、字节跳动,国外包括Uber、Lyft、Netflix等公司都是Flink的使用者。

2017年由加利福尼亚大学伯克利分校AMPLab开源的Ray框架也有相似的思想,由一套引擎来融合多种计算模式,蚂蚁金服基于此框架正在进行金融级在线机器学习的实践。

02 TA 融合:混合事务/分析支撑即时决策

TA融合是指事务与分析的融合机制。传统的业务应用在做技术选型时,会根据使用场景的不同选择对应的数据库技术,当应用需要对高并发的用户操作做快速响应时,一般会选择面向事务的OLTP数据库;当应用需要对大量数据进行多维分析时,一般会选择面向分析的OLAP数据库。

在数据驱动精细化运营的今天,海量实时的数据分析需求无法避免。而混合事务/分析处理(HTAP)的设计理念是为了打破事务和分析之间的那堵“墙”,实现在单一的数据源上不加区分地处理事务和分析任务。

这种融合的架构具有明显的优势,可以避免频繁的数据搬运操作给系统带来的额外负担,减少数据重复存储带来的成本,从而及时高效地对最新业务操作产生的数据进行分析。

03 模块融合:一站式数据能力复用平台

大数据的工具和技术栈已经相对成熟,大公司在实战中围绕工具与数据的生产链条、数据的管理和应用等逐渐形成了能力集合,并通过这一概念来统一数据资产的视图和标准,提供通用数据的加工、管理和分析能力。

医疗大数据的概念及分析-3

大数据在医疗领域的应用

数据能力集成的趋势打破了原有企业内的复杂数据结构,使数据和业务更贴近,并能更快地使用数据驱动决策。主要针对性地解决三个问题:一是提高数据获取的效率;二是打通数据共享的通道;三是提供统一的数据开发能力。这样的“企业级数据能力复用平台”是一个由多种工具和能力组合而成的数据应用引擎、数据价值化的加工厂,可连接下层数据和上层数据应用团队,从而形成敏捷的数据驱动精细化运营模式。数据中台概念就是模块融合趋势的印证。

04 云数融合:云化趋势降低技术使用门槛

大数据基础设施向云上迁移是一个重要的趋势。

各大云厂商均开始提供各类大数据产品以满足用户需求,纷纷构建自己的云上数据产品。例如,Amazon Web Service(AWS)和Google Cloud Platform(GCP)很早就开始提供受管理的 MapReduce 或Spark服务,以及国内阿里云的MaxCompute、腾讯云的弹性MapReduce等,大规模可扩展的数据库服务也纷纷上云,如Google的BigQuery、AWS的Redshift、阿里云的PolarDB、腾讯云的Sparkling等,可为PB级的数据集提供分布式数据库服务。

早期的云化产品大部分是对已有大数据产品的云化改造,现在越来越多的大数据产品从设计之初就遵循了云原生的概念进行开发,生于云长于云,更适合云上生态。

向云化解决方案演进的最大优点是用户不用再操心如何维护底层的硬件和网络,能够更专注于数据和业务逻辑,在很大程度上降低了大数据技术的学习成本和使用门槛。

05 数智融合:数据与智能多方位深度整合

大数据与人工智能的融合成为大数据领域当前最受关注的趋势之一,这种融合主要体现在大数据平台的智能化与数据治理的智能化。

(1)智能化平台:用智能化的手段来分析数据是释放数据价值高阶之路,但用户往往不希望在两个平台间不断地搬运数据,这促成了大数据平台和机器学习平台深度整合的趋势,大数据平台在支持机器学习算法之外,还将支持更多的AI 类应用。

2)智能的数据治理:数据治理的输出是人工智能的输入,即经过治理后的大数据。

数据治理与人工智能的发展存在相辅相成的关系:一方面,数据治理为人工智能的应用提供高质量的合规数据;另一方面,人工智能对数据治理存在诸多优化作用。

医疗大数据的概念及分析-4

微观组学数据

AI智能数据治理是通过智能化的数据治理使数据变得智能:通过智能元数据感知和敏感数据自动识别,对数据自动分级分类,形成全局统一的数据视图。通过智能化的数据清洗和关联分析,把关数据质量,建立数据血缘关系。数据能够自动具备类型、级别、血缘等标签,在降低数据治理复杂性和成本的同时,得到智能的数据。

本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 psw2013#qq.com(#换成@)举报,一经查实,本站将立刻删除。

(0)
上一篇 2023年 12月 9日 21:19:08
下一篇 2023年 12月 9日 21:22:08

相关推荐

发表回复

登录后才能评论