随笔
Hedong Yang
,
16 November 2015
到新公司整半年了。一直想写点什么,总是找不到整块的业余时间。在这凌晨的迷迷糊糊中,想到哪写到哪吧。
现在的工作是大数据分析,参与的项目涉及不同的行业。每个行业有自己的领域知识,感觉还是很有挑战的。不同的项目中的数据量也不相同,对于小数据,R、Python或Weka就可以应对了;处理中数据,R,python,weka就有些力有不逮,vw等走多线程的路,也是一个有效的工具;到了再大的数据,不上hadoop/spark,基本上就只能用采样的方法处理了。一提到采样,似乎感觉对不住大数据。公司的云环境稳定下来了,分布式的机器学习算法也应尽快部署起来。稍微大点的数据,没有这么个环境处理起来还真不凑手。
说到分布式计算,google新发布的Tensorflow,被笑称tensorslow,有点令我失望。mxnet值得投入更多的精力。微软、Facebook、Amazon的相关平台,也值得关注。另一值得关注的是Deep learning越来越火了,现在无论怎样研究还是项目,不跟他扯上边,就显得有些low。新的项目中,找个机会也用一下。
相对于大数据及批处理方式,大流量的流数据也是一种很典型的数据场景。流数据挖掘与机器学习,应该会是一个有意思的题目,现在的研究成果有一些,主要是针对需要实时应对的一些场景,比如信用卡的滥用、盗用检测。其实,大数据在时间要求不紧迫的情况下,也可以考虑采用流式而不是并行方式处理。
关于数据分析,也是最近大火的职业。以后有时间,写一点数据相关的东西。向来反感无病呻吟的文字,希望这些文字多少有点用处。

随笔(http://yanghedong.github.io/:category/2015/11/16/data-analysis)
由 杨和东 创作,采用 知识共享 署名-相同方式共享 3.0 未本地化版本 许可协议进行许可。
blog comments powered by Disqus