摘 要:在大数据浪潮下,生物医学数据快速增长,对具备研究能力、应用能力等多元化复合型医学人才的极度需求是这个时代的一大痛点。Python作为当下流行的编程语言和科学研究的重要平台,其在人工智能、数据处理分析及模型搭建方面较其他编程语言优势更加突出,加之Python语法简洁清晰、拥有成熟的程序包资源库和活跃的社区,为医务工作者进行科学研究提供了极大的便利。掌握Python技术,能节省医学研究者大量的时间,降低研究成本。
关键词:Python;大数据;科研;医学;人才培养
一 、引言
近年来随着高通量测序的广泛应用和医院诊疗手段的推陈出新,生物医学数据呈现出几何级数的增长,生命科学无论是基础研究还是临床研究均迎来了大数据时代1。
随着我国经济与科技实力的快速发展,人民对健康需求日益剧增,培养高质量临床及科研复合型人才愈发迫切。在大数据时代背景下,新兴的交叉学科—医学信息化2--应运而生。目前,生物医学大数据分析的内容主要包括蛋白质组数据分析、单细胞数据分析、基因组数据分析、宏基因组数据分析研究等3,这些分析方法在基础研究前期阶段逐渐占据主流地位并取得卓越的成效。然而,这些分析均对研究者有较高的要求,如需掌握一门大数据分析语言或能熟练操作分析软件。此外,传统检索文献方式及步骤繁琐,并且整理困难,而目前一些程序设计语言如R、Python却能通过短短的一些代码,爬取到文献并进行清洗筛除数据,从数据统计到论文的写作一气呵成,大大增高了学习效率。因此在“互联网+”时代下,医学院校学生掌握一种程序设计语言,有利于今后的科研与技术创新。大数据时代背景下程序设计课程的授课中除了掌握基本的程序开发方法外,还应进行大数据分析所需的技能素养和思维方式的训练及培养4。
二、Python是什么?
计算机语言是一种用于人与计算机之间通讯的语言,是人类向计算机传达指令的媒介。从计算机诞生至今,已发展出多种计算机语言,目前常见的低级语言有:机器码、汇编语言;高级语言有如:C、java、Python等。而Python是一种面向对象的解释型计算机程序的设计语言,具有简单易学、可移植性/可嵌入性高等优点。Python具有丰富和强大的库,便于处理各种工作,例如web开发、云计算、人工智能、科学运算等,Python在上述几乎每个领域都做得十分优秀。
三、Python能为我们做什么?
(一)基础研究
1、谈科学研究,就离不开数据统计与分析。在大数据时代背景下,不管是各种数据的产生,还是新事物的涌现,都将是指数级增长。如何在众多参差不齐的是数据中,去伪存真,是各界研究人士所必备的本领之一。旧式的数据分析方法在将来将越来越难以适应快速增长的数据库。在新涌现的分析手段中,Python无疑拥有着极其强大的数据处理能力。
Python中非常成熟的库和活跃的社区在数据分析和交互、以及数据可视化等方面提供了极大的便利性。可视化后的数据能够直观地展示信息的结构,使得抽象的信息具象化。Matplotlib是Python中用于数据可视化处理的2D绘图库,通过matplotlib用户仅需很简单的代码便可绘制直方图、功率谱、散点图等5。此外,pandas、ipython等是Python中分析和处理数据非常优秀的库及工具,而pandas在数据处理方面更是有着绝对优势。
2、优质文献的研读也是科学研究的重要方法。随着互联网的普及,学术资源急速增长,在带来更多研究资源的同时,也给研究者尤其是初登科学研究殿堂的新人在文献检索方面带来了不少不便。一是传统检索方式及步骤繁琐;二是新手对相关专业词汇储备相对不足,常出现检索不够全面的状况;三是检索所得文献不够精确等。如上所述常耗费研究者大量宝贵时间,而收获甚少。Python通过爬虫检索文献,既高效省时,又精准到位。有关研究显示,从引文检索自动化的实际需求出发,使用python语言开发了SCI引文检索自动化软件,能够实现4种他引标准下的引文检索,有效地减轻了工作人员的劳动强度,提高了工作效率与准确性6。基于Python的网络信息爬取技术可以自动完成网络数据的收集、解析、格式化存储,从而提升工作效率7。
(二)数字医学
现代数字医学不同于过去的重要特点之一,是当今医学数据规模之庞大,数据之间交流之频繁,亘古未有。有资料显示,2011年,全球数据规模为1.8ZB,可以填满575亿个32G的iPad,这些iPad可以在中国修建两座长城8。通过庞大的数据库,我们可以从中寻找到某些疾病相关的蛛丝马迹,探寻生命的发生发展规律。通过科学的工具,在庞大的数据流中,更好的发现事物本质,认识生命现象,而Python则是当下及未来不可忽视的适用于数字医学研究及实践的强大助手。
(三)智能医学
自动驾驶汽车、无人机等各行业大量使用机器人替代人工,宣示着人工智能的强势崛起。其中人工智能在医学领域的应用也越来越广泛,尤其是在我国医疗需求与医疗供给严重失衡的大背景下,智能革命带来的智能化高效生产与生产灵活性的提高为解决医疗行业面临的矛盾提供了可行的解决思路。根据《教育部关于公布2017年度普通高等学校本科专业备案和审批结果的通知》(教高函[2018]4号)公告,我国天津大学、南开大学两所高校首次开设智能医学工程专业。目前我国智能医学研究主要集中在以下领域:人工智能+健康管理、人工智能+医疗服务、人工智能+康复管理、人工智能+临床研究、人工智能+药物研发、人工智能+行业管理。不难发现,不管是临床实践还是临床研究,人工智能在医学领域只会越来越重要。而Python作为当下流行的编程语言和科学研究的重要平台,在未来尤其是在工作应聘中,掌握Python分析技术无疑是重量级的竞争力。
四、为什么选Python?
据统计分析发现,Python已经成为最受欢迎的程序设计语言之一。2011年初,TIOBE编程语言排行榜评 Python为 2010年度语言。在被发明15年之后, Python的使用率呈线性增长。最新一期的TIOBE编程语言排行,2017年6月,对比2016年同期,排名前5名的语言的排序,前五名的语言中仅有 Python的使用百分占比有所上升。由此推测,在不远的未来,Python极有可能成为人工智能与人类之间的“普通话”,重要性不言而喻。
Python相较于当前其他计算机语言,其突出有优势大致有以下几点:一、Python从其诞生之初就奉行极简主义,简单易懂,零基础学者入门较为容易;二、Python有着丰富且标准的库,使用者可以通过简单的代码安装调用,从而完成复杂的指令;三、兼容性强,Python兼容众多平台,从而解决了不同系统、不同平台语言不兼容问题;四、Python开源,即可免费获取,这也是Python流行的一大原因之一。
五、君子善假于物
荀子在《劝学》中说道:“君子生非异也,善假于物也”。不论是古今还是中外,优质信息的及时获取,是人不断进步得以快速成长的不二法宝。在大数据时代面对变化极快的海量数据,对广大医学研究者而言,掌握一门信息技术从而高效获取和分析信息资源已是刻不容缓,而在众多计算机语言中,Python恰逢其时。
参考文献
[1]张乐平, 李东方. 医科院校Python程序设计课程教学研究. 计算机教育. 2017(08):28-31
[2]李国栋. 大数据时代背景下的医学信息化发展前景. 硅谷. 2013;6(19):7-8
[3]谢晟堃. 生物医学大数据的现状与展望. 科技风. 2017(20):20
[4]李秀敏, 王希杰, 刁丽娟. 面向研究型及应用型医学人才培养的Python教学探索. 卫生职业教育. 2018;36(16):74-76
[5]王常衡, 李嘉伟, 罗钦, 卢曼. 浅析Python语言及其应用前景. 计算机产品与流通. 2019(04):146
[6]蔺梅芳, 翟燕, 张宇娥. 应用Python语言的引文检索自动化软件设计与实践. 四川图书馆学报. 2016(03):42-45
[7]刘顺程, 岳思颖. 大数据时代下基于Python的网络信息爬取技术. 电子技术与软件工程. 2017(21):160
[8]郎景和. 大数据及人工智能时代的医学. 中国妇幼健康研究. 2019;30(01):1-3