MBA中国网讯】近年随着大数据的兴起,数据价值这名词随处可见,俨然成了一个新的风口。在这种风口下,数据科学家这个名词在这种潮流下越来越显得高大上,数据处理一词却成了枯燥泛味的工作代名词。




调研公司中的数据处理与数据分析


数据处理 是对数据的采集、存储、检索、加工、变换和传输,也包括数据组织,数据计算,数据检索,数据统计排序等。数据处理是系统工程和数据价值提取的基本环节。


数据分析 则是与数据处理有机结合,利用数据统计方法,从错综复杂的数据关系中梳理出事物的联系,比如发展趋势、影响因素、因果关系等。甚至建立一些BI,对一些数据的有用信息进行可视化呈现,并形成数据故事。




以缺失值处理为例,由于涉及环节过多,通常有不同的做法,如可考虑直接使用含有缺失值的特征, 或采用删除缺失特征的方法。当然也可对缺失值进行补全。 缺失补全,可以采用均值插补,同类均值插补,建模预测,高维映射,多重插补,压缩感知或矩阵补全等。从经验的角度来看,插补处理本身存在主观性,这种估计不一定符合客观事实。 从技术角度而言,虽然有各种分析方法,但大多是从理论分析出发,对缺失值进行处理。


现实的情况是,缺失值本身是无法预测的,也就不可能知道它缺失所属类型,这就意味着我们无法量化插补方法的效果。另外由于各行业或领域的不同,其应用效果也存在较大的差异,尤其针对一些专业的领域,一些专业的数据分析人员可能通过他们对行业的理解,手动对缺值进行补充可能效果反而会更好。




插补有时也会存在误区,以建模预测插补为例 ,当其缺失值与其它特征无关时,用预测的方法就变得毫无意义; 但换过角度来看,如果预测结果相当准确,那就说明选用的特征与缺失值存在相关,这时这些缺失值反而可以考虑不纳入后数据集合中。


因为行业不同,数据处理有些环节并不是一定会存在一个明确答案,所以这也需要数据处理人员有一个宏观认识。尤其团队合作时,需要由相关的有相当技术和业务经验的人员主导和协调,避免项目产生失误甚至错误。 从经验上讲,数据处理人员的经验和感知, 业务的理解,将对后期数据的分析有着关键的影响。




因此我们认为数据处理是数据分析之前的必要环节。在这个阶段,往往需要针对原始数据收集,提取,特征属性的建立,维度的设定。 这些都将直接决定了后续数据分析的成败,乃至数据分析方法或模型的选取。 如果数据处理阶段的设计不完善或失误,会大幅提高整个分析项目失败风险。


市场调研公司内部一般数据处理和数据分析部门是分开的。因为项目类型较多,同时多个项目在进行,客户往往要求的时间比较赶,所以数据处理员在每个项目投入的精力非常有限, 易导致很多加班加点。调研公司中数据处理人员一般较少涉及到研究部门早期的问卷设计,部门之间分割过于清晰。在这种数据处理与数据分析被分割的状态中,如果早期的问卷设计不完善或严谨,最终原始数据可能存在不结构化、业务逻辑前后矛盾的现象,后期数据处理中会出现诸多问题,整个过程可能会在处理要花费大量的工时成本。 如果再加上客户要求的项目时间限定,整体处理可能限入不完善和不严谨的情况,对于后期的数据分析的结果可能带来致命的影响,就算付出更多努力,都达不到预想的效果。




不论传统行业,或当下的大数据时代,经验表明数据处理往往在数据分析产业链中占到80% -90% 以上的工时消耗。有的公司更是出于成本考虑,将整体数据处理业务单独外包,使得原始数据缺乏积累和数据管理混乱。这是市场调研行业发展的一个隐患。



数据技术的应用与发展


相对于早期的传统统计处理思维,大数据时代着实给我们带来了新的兴奋点。 在传统统计分析中,尤其对小数据的推断性分析而言, 传统的思想我们很多时候会去考虑P值的大小。 而在大数据时代,这个样本数据量是剧增的,当样本很大时,传统的P值检验显得不再那么重要,转而更多的处理和分析手段, 变成了对目标函数的优化问题。由于优化技术和计算机性能的大幅提升,传统统计分析方法的工作流程被突破。


在传统分析中,通常我们会先收集数据,然后人工或半自动化的去进行数据清理,然后采用不同的手段进行分析,然后再后验证结论的有效性,以及测试模拟的效果。而当优化技术和计算机性能的提升,并应用现代IT技术,辅以统计学思想加上数学的发展,使这一切变得更加自动化, 从而能实现实时或近实时的分析,进而帮助我们进入机器学习时代。 当我们把这些机器学习或统计分析成果,连接至硬件,并辅以相应的应用逻辑,就可以使机器变得更加智能,从而帮助我们快速进人工智能领域, 这些都是数据处理,数据分析和IT技术发展的成果。




随着近年来大数据的兴起,数据分析环境和工具上也出现了一些新的变化,使得数据处理和数据分析的界定也不再那么明显,数据人才也被更多的要求数据处理和分析均需擅长,新的分析平台也在不断演进。以大数据应用为例,从早期的Java +Hadoop +Map Reduce 平台, 逐浙过度到了(R/Python/ Scala/ Java) + Hadoop +Spark 环境等。同时也出现了包括一些流式数据的处理和分析的方案,Storm, Kafka,Flume等工具的应用,使得流式数据的处理和分析变得更有效,甚至实时或近实时的响应。在数据仓库方面, 也由传统的关系数据库SQL, 扩展到了非结构数据,如:Hive,Mongodb,Spark Sql,Redshift, Elastic Search等工具的应用,使数据处理和数据分析的应用变得也更为紧密,处理和分析功能上也更加完善和统一。在这种改变之下,一些数据处理和分析场景变得可在同一平台上,利用集群进行快速处理、计算和分析。另外,由于很多新型平台由开源社区维护,更新迭代很快,因而技术坑也不少,数据处理和分析人员还因此需要针对环境和平台的变化,进行更多的知识的积累。所有这些对于数据处理和分析的从业人员,也提出了更高的要求。




在这种形势的变化下,数据处理和分析更应成为一个整体,建立独立的机构/单元,分享其知识库,使其能在一致的需求目标下发挥更高的效率,避免各自为阵。应从整体数据业务流上,使其从原始数据收集,质量控制,特征建立,模型选择实现一体化,从而提升其目标问题的可控性和保证信息提取的有效性。


结束语


数据处理看似简单,真正做好则不易。数据处理与分析只有进行有效的前后衔接,才能真正挖掘出数据的价值。


版权声明:

本文转载自消费者研究,如原作者如不愿意本网站刊登使用相关素材,请及时通知本站,我们将在最短时间内予以处理,联系010-53572272。

(下载iPhone或Android应用“经理人分享”,一个只为职业精英人群提供优质知识服务的分享平台。不做单纯的资讯推送,致力于成为你的私人智库。)

作者:佚名
来源:MBA中国网