金融、医疗、科技、科研等领域每天都会产生海量数据。这些数据本身杂乱、零散,往往无法直接使用。而理解数据、将其转化为深刻洞见,正是数据科学家的工作。
Marian-Andrei Rizoiu副教授现任悉尼科技大学(University of Technology Sydney, UTS)行为数据科学实验室负责人。他将数据科学定义为一门以科学思维为基础的学科,数据规模与复杂性本身就是研究挑战的一部分。
“从本质上来说,数据科学家就是运用数据开展研究的科学家。” 他表示,“我们的工作就是处理海量信息,从中挖掘出有价值的内容。”
他将这一过程比作采矿:如果说数据是从地下开采的矿石,那么信息就是矿石中的黄金,而数据科学家就是提炼黄金的人。
什么是数据科学?数据科学家做什么?
数据科学的核心是从海量数据中提取信息,用以解释规律或进行预测。凡是产生大量数据的领域,都会用到数据科学。
在金融领域,数据科学家帮助人们防范诈骗;在医学领域,他们分析基因与医疗数据,找出DNA和染色体中与特定疾病相关的片段。如今,数据科学还被越来越多地用于大规模研究人类行为,包括信息在网络中的传播方式、人们对健康政策或干预措施的反应等。
数据科学家的工作主要包括:收集海量数据集清洗数据、修正数据中的矛盾与错误开展描述性分析,探究数据分布与规律对数据分组,了解其特征与变化运用机器学习与人工智能解读数据、预测未来结果
数据科学家的大量时间都花在数据分析前的数据准备工作上。现实中的数据常因设备故障、记录偏差产生错误,这些问题必须先修正,数据才能投入使用。
数据清洗完成后,分析工作正式开始。通常先进行描述性分析,再逐步过渡到预测性分析,通过模型解释已观测到的现象,或预判未来可能发生的情况。
数据科学家典型的一天可能包括:清洗数据、测试模型、与合作者讨论结果,并根据数据揭示的信息优化研究问题。
如何踏入数据科学领域
成为数据科学家通常需要接受大学教育,一般为3-4年本科学习,部分人会继续攻读硕士学位。若从事前沿科学研究,往往还需要博士学位。
数据科学的培养涉及多个学科,主要包括:数学与统计学、计算机科学、编程与数据库系统、科学分析语言。
Rizoiu指出,高阶研究岗位(尤其是解决未被攻克的科学问题)通常需要博士学历。他同时强调好奇心、耐心与坚持的重要性,因为研究进展往往来自反复试错与不断优化。
当下对数据科学家的需求极高,主要原因是数字化数据无处不在。部分数据科学家(尤其是拥有博士学位者)在高校任职,兼顾教学与科研。
大多数数据科学专业人才进入企业工作。他们可能任职于各类机构,或带领数据科学团队,常参与新产品研发、从数据中挖掘洞见,并开发面向消费者的、数据驱动的工具与应用。
数据科学家通常以团队协作方式工作,与研究员、工程师或领域专家合作。里佐尤将数据科学称作一套通用性极强的技能体系,在学术研究与应用实践领域均有广阔就业机会。
对Rizoiu而言,数据科学的吸引力在于探索与发现。
“当你意识到自己是第一个找到某个问题答案的人时,会有一种独一无二的兴奋感。即便这份喜悦只持续几分钟,那一刻的感受也极具力量。”
正是这份好奇心,以及挖掘未知事物的动力,支撑着他们在复杂且充满挑战的研究过程中不断前行。
关闭