谈谈大数据的那点事儿
“ 大数据是什么”是概念的泛指,“什么是大数据”是概念的特指。在这里我想从概念的泛指到概念的特指这一角度,谈谈对大数据的认识过程,把内心的想法和朋友们一起交流一下。
朋友说:谈什么谈呀!都过去多少年了,现在都在谈论大数据产业了;
我说:现行的确是这样,各行业各部门都在布局占领大数据产业这块阵地;
朋友说:大数据是什么?网上一查就知道了;
我说:是的,那我们用百度或谷歌搜索“大数据是什么”,将会出现成千上万的信息,摆在您的面前,您接受或认知哪一个概念呢?
接受一个新生事物,认识概念非常重要,只有在把控和自身消化概念的基础上,才能深入地剖析新生事物的产生根源、发展现状,以及明确未来研究的领域。
我记得2013年上半年在美国耶鲁大学医学院生物统计系访问合作期间,与马双鸽教授交流讨论过这一想法。当时收集了大量的资料,并从概念泛指的角度整理了国际上知名的学者和专家关于大数据的描述,打印出四张A4纸的内容。这里我们应该明确,每一个专家和学者所提出的概念,都是自身对大数据认知的一个提炼,体现着自身的内涵,因此我们有必要对每一个概念的外延所包含的内容进行深入的了解,例如产生这一概念的背景、支撑这个概念的案例等。拿上这四张关于大数据描述的内容,自己在想这也是数据(文本数据),应该对这些数据进行分析寻求其规律性。我们知道寻求数据规律性的技术很多,在此我们利用定性聚类分析,标志就确定为三个字“大数据”,如果在研读一个概念的内涵和外延的时候,把“大数据”看成是形容词,它描述的是大数据时代的特点;如果把“大数据”看成是名词,它体现的是数据科学研究的对象。