雷锋网 - 100天学习计划 一份详实的数据科学指南

上一篇(左方向键) 下一篇(右方向键) 回目录(回车键) 粗体(B键)  正常(N键) 随机浏览(S键)   浏览次数:13    发布时间:2020/10/10 11:12:20   出处:雷锋网   
100天学习计划 一份详实的数据科学指南 - 后花园网文 - 科技新闻

  字幕组双语原文:100天学习计划 | 一份详实的数据科学指南

  英语原文:A Complete Guide to Learn Data Science in 100 Days

  翻译:雷锋字幕组(不再联系791)

  你是否对学习数据科学感兴趣,但不知道从哪里开始?如果是,那你来对地方了。

  我遇到过许多对学习数据科学充满热情的人,但仅仅几周后,他们就放弃了学习。我想知道为什么一个人对一个领域如此热情却不去追求它?通过与他们中的一些人交谈,我了解到人们放弃学习的主要原因是:

  为了成为一名数据科学家,他们要学习的课题太多了

  他们遇到的领路人说,要成为数据科学家,必须是一个有才华的程序员、数学专家、应用统计学大师,并且非常熟练地使用panda、NumPy和其他python库。

  这些甚至会吓到一个有经验的数据科学家,难怪他们会让试图学习数据科学的人放弃。上面的每一个话题就像一片海洋,当有人试图快速掌握它们时,他们会感到沮丧并放弃学习。真正的事实是,要想成为一名成功的数据科学家或成为一名数据科学家,你甚至需要掌握更多。

  如何学习数据科学

100天学习计划 一份详实的数据科学指南 - 后花园网文 - 科技新闻

  要成为一名数据科学家,你需要从以下条目中学到足够多的知识:

  Python或R编程的基础知识

  如果选择Python,那么像panda和Numpy这样的库

  可视化库,如ggplot、Seaborn和Plotly。

  统计数据

  SQL编程

  数学,尤指线性代数和微积分

  在下面的视频中,我提到了学习数据科学的分步指南。我已经解释了达到数据科学不同专业水平所需的知识深度。

100天学习计划 一份详实的数据科学指南 - 后花园网文 - 科技新闻

  https://youtu.be/5zec-qxfMvg

  如何计划学习?哪些主题应该首先涉及?

  让我来解释一下100天学习数据科学的计划。下面是使用Python学习数据科学的逐日计划,该计划跨度为100天,每天至少需要花费一个小时

  第一天:安装工具

  只要确保安装了所需的工具,并且您对接下来几周/几个月将要使用的工具感到舒适即可。如果选择Python则安装Anaconda,其中还会安装IDEs Jupyter笔记本和Spyder。如果你选择' R ',然后安装RStudio。试着在IDE中玩一玩,并熟练地使用它。比如,尝试理解包/库的安装、执行部分代码、清理内存等等。

  第2天到第7天:数据科学的基础编程

  下一步是学习基本的编程,下面是一些应该学习的主题:

  创建变量

  字符串数据类型和通常在字符串数据类型上执行的操作

  数值数据类型、布尔值和运算符

  集合数据类型列表、元组、集合和字典——理解它们之间的唯一性和差异非常重要。

  If-Then-Else条件,For循环和While循环实现

  函数和Lambda函数-它们各自的优点和区别

  第8天到第17天: Pandas 库

  了解 Pandas 库,在 Pandas 中需要了解的一些主题是:

  创建数据帧,从文件读取数据,并将数据帧写入文件

  从数据框架中索引和选择数据

  迭代和排序

  聚合和分组

  缺失值和缺失值的处理

  Pandas 的重命名和替换

  在数据帧中连接、合并和连接

  总结分析,交叉表格,和枢轴

  数据,分类和稀疏数据

  花10天时间彻底学习以上主题,因为这些主题在执行探索性数据分析时非常有用。在介绍这些主题时,请尝试深入粒度细节,比如理解合并和连接、交叉表和枢轴之间的差异,这样不仅可以了解它们中的每一个,还可以知道在何时和何处使用它们。

  我为什么要学 Pandas?如果您从事任何数据科学项目,它们总是从探索性数据分析开始,以便更好地理解数据,而您在 Pandas 中介绍的这些主题将会派上用场。另外,因为Pandas有助于从不同的来源和格式读取数据,所以它们速度快、效率高,还提供了对数据集执行各种操作的简单功能。

  第18天到第22天:Numpy Library

  学会 Pandas 之后,下一个需要学习的重要库是Numpy。学习Numpy的原因是与List相比它们非常快。在Numpy中要涉及的主题包括:

  数组的创建

  索引和切片

  数据类型

  连接与分离

  过滤所需的数据元素

  为什么学习Numpy很重要?Numpy能够以快速和高效的方式对数据执行科学操作。它支持机器学习算法中常用的高效矩阵运算,panda库也广泛使用了Numpy。

  第23天到第25天:可视化

  现在,我们需要花一些时间来理解和使用一些关键的可视化库,比如ggplot、Plotly和Seaborn。使用示例数据集并尝试不同的可视化,如柱状图、线形/趋势图、盒状图、散点图、热图、饼状图、柱状图、气泡图和其他有趣的或交互式可视化。

100天学习计划 一份详实的数据科学指南 - 后花园网文 - 科技新闻

  数据科学项目的关键是与涉众交流洞察力,而可视化是实现这一目的的很好的工具。

  第26天到第35天:统计、实现和用例

  下一个要讨论的重要主题是统计学,探索常用的描述性统计技术,如平均值、中位数、众数、范围分析、标准差和方差。

  然后介绍一些更深层次的技术,比如识别数据集中的异常值和测量误差范围。

  作为探索各种统计测试(如下所示)的最后一步,了解这些统计测试在现实生活中的应用:

  F-test

  ANOVA

  卡方测试

  T-Test

  Z-Test

  第36天到第40天:用于数据分析的SQL

  现在是学习SQL的时候了,这很重要,因为在大多数企业用例中,数据将存储在数据库中,了解SQL将极大地帮助从系统中查询所需的数据进行分析。

  您可以先安装一个开源数据库,比如MySQL,它会附带一些默认数据库,只需要处理数据并学习SQL。如果你能集中学习以下内容,那就太好了:

  从表中选择数据

  基于键连接来自不同表的数据

  对数据执行分组和聚合功能

  使用case语句和筛选条件

  第41 - 50天:探索性数据分析(EDA)

  在任何数据科学项目中,大约80%的时间用于此活动,因此最好花时间彻底学习此主题。为了学习探索性数据分析,这里不涉及一组特定的功能或主题,但是数据集和用例将驱动分析。因此,最好使用一些来自kaggle中主办的比赛的样本数据集,学习如何执行探索性分析。

  学习探索性数据分析的另一种方法是编写关于数据集的问题,并尝试从数据集为它们找到答案。比如,如果我考虑最受欢迎的泰坦尼克号数据集,然后尝试寻找问题的答案,比如哪种性别/年龄/甲板的人有更高的死亡概率等等。你进行全面分析的能力会随着时间的推移而提高,所以要有耐心,慢慢地自信地学习。

  到目前为止,您已经学习了数据科学家所需的所有核心技能,现在可以学习算法了。

  数学怎么了?

  是的,了解线性代数和微积分是重要的,但我宁愿不花时间学习数学概念,但当他们需要,你可以参考和温习你的技能,高中水平的数学将是足够的。例如,假设你正在学习梯度下降法在学习算法的同时你可以花时间学习它背后的数学知识。 因为如果你开始学习数学中的重要概念,那么它可能是非常耗时的,而且通过在需要的时候学习,你会学到足够的时间所需要的东西,但是如果你开始学习数学中的所有概念,那么你将会花费更多的时间,学到的东西将远远超过所需要的。

  第51天到第70天:监督学习和项目实施

  在开始的10天里,学习一些关键的算法,理解它们背后的数学原理,然后在接下来的10天里,专注于通过开发一个项目来学习。这节课要讲的一些算法有:

  线性回归和逻辑回归

  决策树/随机森林

  支持向量机(SVM)

  在最初的10天里,重点应该是理解你所选择的算法背后的理论。然后花些时间了解每个算法比其他算法更适合的场景,比如当数据集中有很多分类属性时,决策树是最好的。

  然后选择一个解决的例子在Kaggle,你将能够找到大量解决的例子尝试重新执行他们,但仔细理解每一行代码,并理解他们的原因。到目前为止,您已经获得了良好的理论知识,以及从解决的示例的工作知识。

  最后一步,选择一个项目,并实现一个有监督的学习算法,从数据收集、探索性分析、特性工程、模型构建和模型验证开始。肯定会有很多问题和问题,但当你完成项目时,你会对算法和方法有很好的了解。

  第71天到第90天:无监督学习和项目实施

  现在是时候关注非监督学习了,类似于在监督学习中使用的方法,先花几天时间理解你在非监督学习中选择的算法背后的概念,然后通过实施一个项目来学习。

  这里要讲的算法是,

  聚类算法-用于在数据集中识别聚类

  关联分析——用于识别数据中的模式

  主成分分析——用于减少属性的数量

  推荐系统-用于识别相似的用户/产品并进行推荐

  最初的日子里,应把重点放在理解上面的算法和技术也了解他们每个人的目的,他们可以使用的场景像主成分分析通常用于数据集降维,当你工作在一个非常大的列数和你想要减少,但仍保留信息和推荐系统在电子商务流行基于客户的购买模式可以推荐他们可能感兴趣的其他产品来增加销量。

  当您熟悉了可以使用它们的理论和场景后,就可以选择一个已解决的示例,并通过逆向工程来学习,即理解每一行代码并重新执行它们。

  作为最后一步,现在是选择用例并基于您目前所学实现的时候了。在完成项目/用例时,你会学到很多东西,你会对这些算法有更好的理解,这将永远伴随着你。

  第91天到第100天:自然语言处理基础

  利用这段时间关注非结构化/文本数据的分析和用例。值得花时间在这里的事情很少

  学习使用API从公共源获取数据

  执行一些基本的情绪分析——可以使用来自twitter API的数据来提取特定标签的tweet,然后可以计算这些tweet背后的情绪和情绪

  主题建模——当有大量的文档,并且您想要将它们分组到不同的类别时,这种方法非常有用

  就是这样!现在,您已经介绍了所有重要的概念,可以申请任何数据科学工作了。我已经在我的YouTube频道上开始了为期100天的学习数据科学的教程,如果你感兴趣,请加入我,在这里开始你的学习数据科学的教程。

100天学习计划 一份详实的数据科学指南 - 后花园网文 - 科技新闻

  https://youtu.be/VaXijSN_SJc

  常见问题

  有人能在100天内成为数据科学家?

  是的,就像任何人都可以在几天内学会游泳一样,任何人都可以在100天甚至更短的时间内学会数据科学。但是就像游泳一样,要想成为一名优秀的游泳运动员或者奥运会游泳运动员,必须通过努力和不断的练习,数据科学也是一样,通过不断的练习和努力,你才能成为一名专家。

  如果我沿着这教程走下去,我能学到多少?

  在教程结束时,您将有足够的知识来从事典型的数据科学项目。这样,您就打破了学习障碍,因此只需付出最小的努力和最少的支持,您就能够继续学习数据科学中的高级主题。

  结束前的最后信息

  一开始,事情可能看起来太复杂,不要不知所措,只要一步一个脚印,继续你的学习之旅,这可能需要一些时间,但你一定会到达你的目的地。

  雷锋字幕组是一个由AI爱好者组成的翻译团队,汇聚五五多位志愿者的力量,分享最新的海外AI资讯,交流关于人工智能技术领域的行业转变与技术创新的见解。

  团队成员有大数据专家,算法工程师,图像处理工程师,产品经理,产品运营,IT咨询人,在校师生;志愿者们来自IBM,AVL,Adobe,阿里,百度等知名企业,北大,清华,港大,中科院,南卡罗莱纳大学,早稻田大学等海内外高校研究所。

  

雷锋网』的更多其他内容(随机显示)

01、Waymo One 全自动驾驶已到:未来将一人多车、扩张三步走,迈向盈利第一步

2020/10/9 19:11:15

02、10月14日发布!iPhone 12 新品最全曝光

2020/10/7 16:51:40

03、追势科技携手地平线,能否带来自动泊车落地新思路?

2020/10/6 10:18:44

04、医疗影像AI的未来突围战 中国医学影像AI大会

2020/10/3 17:26:13

05、梅奥诊所研究员质疑Apple Watch:某些功能将导致过度医疗

2020/10/2 14:20:57

06、开启交互新时代,压力触控市场何时能爆发?

2020/10/1 15:04:26

07、让汽车从“可靠”到“可信”,现有智能感知技术还缺什么?

2020/9/30 23:24:37

08、东风系列新品亮相北京车展:发新车、现“岚图” iFree,打造智慧生态

2020/9/30 18:56:34

09、「致敬经典,启迪未来」,别克新能源概念车 Electra 首发

2020/9/30 11:16:48

10、日产Ariya国内首次亮相,“技术日产”能否延续神话?

2020/9/28 17:44:19

11、岚图首款量产概念车iFree 全球首发|2020北京车展

2020/9/28 14:27:00

12、今年中秋月亮“瘦”了!荣耀30最强拍月亮教程来了

2020/9/28 14:26:15

13、除了免费加电、电池租赁,小鹏汽车还准备上天|2020北京车展

2020/9/28 12:29:01

14、“不妥协”的仿生手登上《科学-机器人》封面!外观高度类似人手,续航一整天

2020/9/27 20:06:59

15、五十知「天命」,西部数据的存世之法

2020/9/27 17:28:30

16、智能新能源汽车争夺战,正式进入“纯电时刻” 2020北京车展

2020/9/26 21:13:18

17、为自动驾驶铺路,高通加码数字座舱和C-V2X

2020/9/26 21:10:06

18、中国工商银行开始采用蚂蚁自研数据库OceanBase

2020/9/25 14:47:40

19、单线程性能提升超50%!Arm新款服务器CPU要靠单核打天下?

2020/9/24 19:59:38

20、混动与纯电天平重归平衡,车企将如何应对?上汽公布全新插电混动战略

2020/9/24 17:49:45

21、上海长征医院萧毅教授:什么样的医学影像AI产品,最具生命力?

2020/9/23 13:29:24

22、佳都科技入选2020中国新科技100强

2020/9/23 10:17:59

23、“离线”语音,“闭环”音乐,“公版”芯片,华米造表新思路

2020/9/22 21:57:53

24、国轩高科徐兴无:对抗刀片电池、CTP,国轩推 JTM 集成技术“往上冲” 2020 全球新能源汽车供应链创新大会

2020/9/22 19:46:19

25、算力加速战,理想汽车下一款SUV将首发英伟达Orin芯片

2020/9/22 19:46:19

26、-138°C 时液态水还存在吗?物理学家用 25 年研究实现「超冷水」里程碑

2020/9/21 19:21:07

27、推动我国主导的开源技术扎根高校,OpenI启智社区校园行深圳启动

2020/9/21 14:14:25

28、用户发现推文照片预览有“偏见”,Twitter回应

2020/9/21 11:05:12

29、阿里含光800 AI处理器高调亮相后,三大场景落地性能比GPU高4-11倍

2020/9/19 14:51:44

30、L2.5+智驾辅助、配斑马最新系统,10.98万元起售靠谱吗?

2020/9/18 17:04:33

31、从粒子探测到集成电路,工业传感器芯片的国产化之路

2020/9/18 17:03:45

32、深度学习之父Hinton:下一代神经网络

2020/9/18 16:53:46

33、北大心理与认知学院院长方方:人类注意力图和动态机制

2020/9/18 13:56:26

34、北大吴思教授:人脑的视觉识别有无穷多个解

2020/9/18 13:56:03

35、iPad Air首发全球首款5nm商用芯片,iPhone12的A14会如何?

2020/9/16 19:11:52

36、探索与执行:通过元强化学习分解实现无奖励自适应

2020/9/16 18:00:35

37、阿波罗智行获长沙全国首批无驾驶人路测许可,率先开展全无人测试

2020/9/16 12:14:51

38、为了让科技更生活,成都我们来了!

2020/9/15 14:37:26

39、Twitter团队最新研究:快速高效的可扩展图神经网络SIGN

2020/9/15 12:38:55

40、今晚8点 正心科技CEO赵卫:医疗AI如何读懂心电图?

2020/9/11 19:49:47

41、再投200亿,威马明年上市L4自动驾驶新车型

2020/9/11 11:21:40

42、睿心医疗马骏:形态学+功能学,如何实现心血管疾病的智能诊断?

2020/9/10 16:54:51

43、京东健康呼吸中心上线,提供面向慢阻肺群体的专科医疗服务

2020/9/10 16:14:28

44、KeyPose:从立体图像估计透明物体3D姿态

2020/9/10 12:01:53

45、低功耗蓝牙时代,纽扣电池寿命可达十年

2020/9/10 11:59:33

46、宇通智慧出行品牌 WITGO 发布,5G 智慧出行系统已落地郑州

2020/9/9 20:06:09

47、软件定义汽车,长沙准备抓住车联网先导区

2020/9/9 20:06:09

48、自动驾驶大航海时代,AI芯片成最强发动机

2020/9/9 11:50:54

49、未来趋势?通过无线技术管理汽车电池,可消除90%物理布线

2020/9/9 10:21:46

50、领克06能否成为年轻后浪们第一辆车?

2020/9/8 23:28:11