导航
  • 报考
  • 备考
  • 政策

报考

备考

复习资料

政策

行业动态
短信预约 数据分析师考试动态提醒 立即预约

请输入下面的图形验证码

提交验证

短信预约提醒成功

数据分析师经验|新公布的6种数据科学家必须要的建议,这些细节你一定要注意

环球网校·2020-04-07 14:40:57浏览19 收藏3
摘要 在茫茫的数据发展长河中,人们慢慢掌握了数据处理的方法,其中重要的处理方法之一就是对数据的分析,所以出现了数据分析师这一处理数据的职业,有很多刚入职成为数据分析师的新人都会有数据分析的问题,今天就来讲讲数据科学家必须要的建议的问题。

1、数据科学家必须要的建议——亲身尝试云计算

现在许多公司都在找有云计算经验的数据科学家,因为云平台提供的工具可以扩大数据流和预测模型的规模。未来你也可能在日常工作中用上一个云平台,比如亚马逊的AWS和谷歌云平台(GCP)。

是许多平台提供了免费版从而让更多人能够了解云平台。比如AWS就有免费版的EC2实例和免费使用的服务(比如支持少量请求的Lambda),GCP则提供给用户300美元的免费额度用来试玩平台上的绝大部分功能,而Databricks则提供了社区版本的平台。虽然你不能在这些平台上免费跑大数据集,但是你可以积累在平台亲身实践的经验。

我的一个建议是你可以尝试这些平台的不同功能,去看看你是否能够用一些工具去训练及部署模型。比如我在一篇讲模型类服务的文章中,用了我熟悉的SKlearn,并且研究了如何把一个模型包装成Lambda函数。

2、数据科学家必须要的建议——创建一个新的数据集

在课堂上或者在数据科学比赛中,你经常需要一个干净的数据集,从而使整个项目能集中在数据探索和数据建模上。然而,在很多实际项目中,你需要做数据整理,从而将原始数据集转换成一个更有利与分析建模的数据集。通常,数据整理需要收集额外的数据集去做数据转换。比如我曾处理过美联储的数据来更好地理解富裕家庭的资产配置情况。

这是一个有趣的项目,我用了第三方数据去评估一手数据的准确性。所以我的第二个建议是进一步深入实践,去构建一个数据集。这个过程会可能包含从网站爬取数据,从数据统计网站(如steamspy)采样数据,又或者要整合不同数据源从而创造一个新的数据集。例如,我在研究生期间创造了一个星际争霸(StartCraft)比赛回放的数据集,这就能证明我有能力在一个新生成的数据集上做数据整理。

3、数据科学家必须要的建议——将各种信息关联起来

有一种能力我会希望数据科学家去展现:就是能将不同的组件或者系统连接起来从而完成一项任务。在数据科学家这个角色中,也许没有一个清晰的路径来使模型产品化,所以你可能需要构造一些独特的东西让系统跑起来。一个理想化的数据科学团队会有工程师来做系统搭建及运行,但是原型开发对数据科学家来说其实是一个很棒的技能,它可以让你跑得很快。

关于这点,我的建议是去尝试将不同的系统或组件整合进数据科学工作流中。这个尝试可以包含用一些工具比如Airflow去开发一个数据管道。也可以包含搭建连接不同系统的桥梁,例如我在JNI-BWAPI项目中,就开发了基于Java的接口来连接星际争霸:母巢之战的API库。或者可以包含将不同的组件整合到一个平台上,比如用GCP数据流(DataFlow)来获取BigQuery的数据然后应用到预测模型上,再把预测结果储存到云数据存储(Cloud Datastore)上。

4、数据科学家必须要的建议——提供一个服务

作为数据科学家,你将经常需要提供服务来让公司的其他团队使用。举例来说,这可以是一个Flask应用,用来给出一个深度学习模型的计算结果。如果你能够开发出这个服务,这意味着其他团队将能更快地使用到你的数据产品。

关于这点,我的建议是尝试使用一些工具(比如Flask或者Gunicorn)去配置web端点(endpoint),然后用Dash在Python中创建交互式的web应用。当然,在Docker中尝试配置这当中的一些服务也会对你颇有帮助。

5、数据科学家必须要的建议——做过的酷炫的可视化

虽然伟大的工作自然会脱颖而出,但在你解释一个分析或模型如何重要之前,仍有必要获得众人的关注。关于这点,我的建议是学习各种可视化工具来创建一个引人入胜的数据可视化。

可视化同时还能改进一系列的工作。

下面的博客展示了我作为数据科学家在过去10年中发现的一些工具和数据集。

6、数据科学家必须要的建议——写白皮书

在数据科学的所有技能中,有一项一直以来我都十分推荐,那就是能够通过白皮书来解释项目。白皮书是一种概要,它探讨了研究如何被应用,并提供了关于研究方法和结果的详细介绍。白皮书是为了让更多的读者一目了然地理解你的研究,并且使其他数据科学家也可以在你的基础上继续研究。

博客或其他形式的输出都可以很好地增加写作经验。我对这点的建议是尝试去面向大众写一些数据科学的文章,这样当你要表达你的想法时,你会知道如何针对不同人群阐释不同程度的细节。

以上就是有关于数据科学家必须要的建议的相关内容,以及相应的解析,不论你是已经入职数据分析师岗位的新人,还是打算进入数据分析岗位的小白,以上的内容都或多或少会对大家有所帮助,环球网校的小编在这里祝大家的数据分析师职业道路顺利。

展开剩余
资料下载
历年真题
精选课程
老师直播

注册电脑版

版权所有©环球网校All Rights Reserved