CDA数据分析师

CDA数据分析师

考试报名
考试报名
考试内容
考试大纲
在线客服
返回顶部

CDA LEVEL II 第十一届考试优秀考生采访

2021-08-17

第十一届CDA认证考试,在2019年12月28日圆满地落下了帷幕,本次考试在全国23所城市共设立37个考场。


近日,我们采访了在本届考试中名列前茅的几位优秀学员,并在本文中整理了他们的备考和学习经验,希望备考者们能够有所参考,并取得理想的成绩。

 

今天为大家带来的是,在CDA认证考试 Level II 中取得优异成绩的几位考生。下面让我们来一睹他们的风采吧!


LEVEL II 建模分析师

第一名 段晓丽


 

1.目前从事的工作

目前就职于一家股份制银行,从事算法模型研发工作,负责风险管理、市场营销、客户服务等领域的算法模型支撑。

 

2.报考CDA认证考试的契机

在此非常感谢我的公司。2019年公司面向员工开展机器学习培训,为保证培训效果,公司在培训后组织内部测试选拔了10名员工参与CDA二级认证考试,我有幸成为一员参加了CDA认证考试。

 

3.我是如何备考的

我准备了三四周的时间,主要是晚上和周末的时间学习。备考时我用了个小策略,选择题每题分数很少,考试成绩取决于案例操作题的成绩,因此针对选择题的备考,我主要看了考试大纲,对考试大纲中的内容要做到熟练掌握,至于其他的知识点就靠平时积累。案例操作题对备考材料中的两套模拟题进行了全流程的模拟操作,并在之后对代码不断进行优化。

 

4.备考中有哪些知识难点

难点在于客观题中会有些迷惑性的选项或字样,如果不加辨别很容易出错;还有些之前未了解过的算法,很难在较短时间内有深刻记忆;案例操作题中缺失值较多,需要使用合适的缺失值填充方法。

 

5.推荐的书籍和课程

备考期间主要是看2019年培训的材料、视频以及CDA二级认证考试大纲,考完之后决定把以前看过的《数据挖掘技术》再翻过来看看,应该会有些新的理解。

 

6.对备考者们的建议

考试涉及到的内容多,范围广,在准备的时候要抓重点;另外案例操作题一定要先理解数据,理解数据背后的业务逻辑,不要一上来就直接训练模型。

 

6.今后的职业发展规划

今后会学以致用,将理论与实际业务相结合,尝试不同场景下的算法模型,让数据发声,创造价值。

 

第二名 冯俊淇




 

1.报考CDA认证考试的契机 

我是南京理工大学统计学的研一学生,方向是数据挖掘。近年来数据分析、数据挖掘很热门,CDA Level 2建模分析师的考试兼并对机器学习算法和软件操作的考察,导师也推荐报考,因此报考。

 

2.我是如何备考的

备考大概从10月份开始的,每天大概两个小时左右。

备考分为理论和实操两部分,理论部分的准备时间比较长,实操看个人基础。

理论部分是看大纲,按照大纲的要求复习一遍,然后针对每个算法研究细节。最后做一下模拟题,找到自己的不足,再查缺补漏。

实操部分有基础可以尝试各个算法的应用,并找案例操作一下。没有基础需要先补习基础知识。

 

3.备考中有哪些知识难点

理论题中的部分算法细节不好理解,需要从多个角度反复思考。操作题不均衡样本的处理,特征工程,模型调参等等。


4.推荐的书籍和课程

书籍方面主要以考试大纲为主,更多的细节推荐《数据挖掘:概念与技术》,这本书和大纲联系比较密切,内容很充实;有能力可以看看西瓜书,统计学习方法,考试不会涉及这么深,有兴趣可以了解。

课程方面主要在操作软件,可以参考CDA官方的一些课程。


5.对备考者们的建议

1)大纲中的内容要全部掌握,参考书尽量看

2)复习到位的话,理论题分数差距不大,重点在实操题,多动手,多尝试。

3)做好日常的学习工作,空闲时间补充自己

 

6.今后的职业发展规划 

加深学过模型的理解,关注前言模型,加强分析能力、代码能力,提升理论、操作的熟练度,注重总结。

 

并列第三 黄建创


 

1.目前从事的工作 

2011年开始工作到现在已是第九个工作年,一直在保险公司精算部门工作,现在主要负责资产负债量化分析相关工作。


2.报考CDA考试的契机

近年来随着大数据、人工智能等技术发展,传统精算未来将面临越来越大的挑战,报考CDA一方面是想通过拓展自身知识边界来保证自身专业价值;另一方面也是期望通过学习机器学习算法相关的内容能为公司经营管理决策提供新的思路和方法。

 

3.我是如何备考的

首先根据自己实际情况统计每天可以用于复习的时间:周一至周五由于白天要上班,主要利用晚上空闲时间复习,每天坚持复习1个小时(除了上班,回家还要肩负家庭小孩教育,可用于备考复习时间比较零散);周末的时间则较为充裕,复习也较为系统,一般是早中晚各2小时。

 

然后结合考试大纲对各章节内容进行复习时间分配,制定复习计划表。比如我对贝叶斯统计、回归、神经网络等章节已有一定知识基础,时间分配少一些,而对随机森林、集成学习等较陌生的章节,时间分配就多一些。

最后就是根据复习计划表严格执行计划,为保证复习质量和进度,备考期间不可避免要牺牲与亲友一起交流活动的时间。

 

4.备考中有哪些知识难点

在做案例操作题时遇到有较大的问题,比如如何选择合适的算法。在算法选择后,如何调整最优参数来提升模型预测或分类的准确度。如有一起备考可以讨论的伙伴,会大大减少这方面的困扰。

 

5.推荐的书籍和课程

考试大纲推荐的书籍都很经典,根据其中的书目挑选其中1-2本来复习就差不多了。如想快速有效提升在数据分析方面的专业水平,可考虑参加CDA相关的培训课程。


6.对备考者们的建议

建模分析师考试目的除了要求掌握各种理论算法外,更重要还是要将算法应用到实践中去,所以平时学习过程在看教材的同时,进行案例操作必不可少,只有通过大量的案例编程分析,才能熟能生巧,从而进一步巩固对各种算法的理解。

 

7.今后的职业发展规划

今后还会在精算这条道路上继续前行,希望能将CDA所学知识与精算理论有机结合,真正应用到日常工作中,更有效直接地体现为公司创造的价值。

 

并列第三 张磊  


1.目前从事的工作

原来在上海电信从事数据分析工作,今年刚刚转岗成一名数据挖掘工程师兼项目经理。


2.报考CDA考试的契机 

之前一直用比较原始的方法(excel等传统工具)做简单的描述性统计分析,所以希望能够提升自己的数据分析能力。在去年5月比较了一下市面上比较好的数据分析认证,CDA比较符合我的需求,就报考了CDA Level1。经过一个月的努力,虽然统计学几乎零基础但顺利通过了。又比较了一下Level2建模和大数据,觉得建模更适合现在的自己,所以在去年9月又马上报名了Level2建模。


3.我是如何备考的

虽然我是去年9月下定决心报名考试的,但是在去年6月刚刚考过CDA LEVEL1后就马上开始学习数据挖掘的相关知识,同时之前已经自学了Python,所以还是有一些基础的。

9月开始一直到12月考试前,也就是整整4个月的时间,白天需要工作,大多是在工作闲暇或晚上抽空学习,平均每天耗费在学习上的时间为3个小时。主要的学习内容包括:

1)大纲解析的阅读和理解

大纲我总共看过4遍,每个月1次,每次都有新的体会。 

第一遍阅读,让我了解自己哪些基础不对,针对性调整。 

第二遍阅读,整理出了思维导图。

 

第三遍阅读,是和后面的两份模拟卷结合起来看的,同时在笔记本上做好笔记。 

第四遍阅读,查遗补漏,最后温习。 

2)模拟卷和官方题库的自学

模拟卷很重要,实际考试中有不少都是大纲解析和模拟卷中的原题,有可能稍有变动,但只要搞清楚了得分也就很容易了。

3)参加一次数据挖掘比赛

使用Kaggle和CDA的练习赛是可以,但最好是参加一次实际的比赛,将学到的东西运用在比赛中会更有感觉。

相关的比赛有很多,比如Kaggle、天池、CCF,甚至CDA自己举办的竞赛都是可以的。

4)知识点的自我整理

学好后如果不做整理,最后必然是慢慢遗忘。在备考前,我花了一周的时间把所学所知都整理了一遍,并以博客的形式分享,主要包括:

《七种常用监督类预测模型的特征、优缺点整理》

CDA LEVEL2 大纲解析案例题Python实现代码》

Python:3个常用数据检验代码实现》

Python:14个常用数据清洗代码》

CDA Level2 模拟题1 Python代码实现》

CDA Level2 模拟题2 Python代码实现》 


4.备考中有哪些知识难点 

CDA2建模相比CDA1来说更偏重于实战多一些,所以对我这种实战大于理论的人来说更适应一些。印象比较深刻的是在做第二套模拟题时碰到一道计算贝叶斯的题目,算出来的答案和标准答案不一致,群里讨论了很久,最后还是依靠CDA老师给出了解题思路。所以群内讨论是一个很好的学习方法,只有沟通交流才能迅速进步。


5.推荐的书籍和课程

首先CDA大纲是最好的复习资料,跟着学至少可以掌握60%的知识点,加上《数据挖掘导论(完整版)》基本能涵盖95%以上的理论知识了。

然后对于数据挖掘,使用的工具一般都是Python,所以有4本书值得一看:《Python基础教程(第3版)》、《利用Python进行数据分析》、《Python机器学习基础教程》、《机器学习实战》。

最后视频和课程的话,吴恩达的《 机器学习 》、唐宇迪的《 Python数据分析与机器学习实战 》还有CDA官网的视频课程都是不错的选择。

 

6.对备考者们的建议

建模或者说数据挖掘是目前比较火的一个行业,入门容易但是想要深入却非常困难,需要大量的实战经验和很好的数学基础,如果单纯只是使用模型和调参的话走的路并不会太远,所以在学习中尽量钻研的深入一些,理解模型和代码背后的原理,这对于将来的实际工作会有很大的帮助。

 

7.今后的职业发展规划

目前刚刚转到新的岗位上,既要承担管理的工作,也要负责数据挖掘的研究,同时还需要学习网络、云、大数据等多种新的知识,所以痛并快乐着。希望自己能在这几年里以技术为核心,完善自己的知识体系,全面提升自己的能力。

 

LEVEL II 大数据分析师

第一名 吴文韬



1.目前从事的工作

我目前在PayPal项目担任大数据工程师一职,主要从事移动支付平台的大数据分析和产品开发工作


2.报考CDA考试的契机

当今职场竞争激烈,手握一个技能证书也是提升自身竞争力的途径之一,同时适当参加一些考试也是对自己学习成果的一个检验和回顾,因此在年底报考了CDA。


3.我是如何备考的 

其实个人是个很容易沉迷于某件事里去的人,所以在备考时也没有想太多,基本就是把自己的全部时间都投入到完成这一个目标上去了;话虽如此,为了高效学习,还是要寻求一些方法论的,自己备考大致花了两个月的时间,其中大部分的时间并不是花在学习新知识上,而是反复温习以前的旧知识,越是觉得难的知识点,就越要把它们搞懂,温习好之后,立马将其写成一篇博文,这样就能将一个短期记忆转化成长期记忆,不容易遗忘,美国物理学家费曼也提出了学习的方法论,那就是试着将自己掌握的知识教给一个完全不懂的人,如果他都能够听懂,就说明你是真的学会了。

 

4.备考中有哪些知识难点 

因为知道考试中会有涉及到上机的部分,因此自己在一边复习理论的时候,更加看重实践的部分,如何搭建集群环境,如何快速定位问题并找出解决办法,这些都是没有捷径可寻的,唯一的办法就是卖油翁里的老汉所说的,“无他,唯手熟尔”,只有反复地去“折腾”,去踩坑,才能真正锻炼出在实际项目中面对压力,自己独立思考并解决问题的能力。

 

5.推荐的书籍和课程

可以将视频教程和书籍两者相结合着来学习,视频建议直接购买一些培训机构的课程系统全面地进行学习,比如九章算法等,这些课程往往都很实用,贴合项目实际生产环境,但是如果想要对某个领域进行更为深入地研究的话,就推荐买些书静下心来啃一啃了,比如,当时在学习ML的知识时,就买了《机器学习实战》,《机器学习线性代数基础》等书,而在学习大数据框架时,则是在Apache官网上找的技术文档拿来研究。

 

6.对备考者们的建议 

考试不是最终目的,考试最主要的作用还是为更好地迈入数据行业做准备,如果想要真正地开始学习的话,那CDA的课程是一个不错的选择,目前主流的编程语言如Python,分析引擎如Spark等都会在课程中详细介绍,想要备考的同学,建议每天抽出足够多的时间系统地进行一下学习,并且一定要坚持下去,要相信最终一定会有成果。


7.今后的职业发展规划

行业:本人对整个行业的构想是,未来社会数字化,信息化的趋势必定发展得会越来越好,技术将会发挥越来越大的作用,将死水盘活,消除行业的壁垒,将以往一些需要很长时间才能构筑起来的东西快速地完成搭建,未来AI,云,大数据的发展也绝不会是互联网一家独大,而是会成为像空气一般稀疏平常的事物,因此提前做好准备,展望未来社会的发展趋势,具备一些未来可能会用得到的技能个人觉得是很有必要的。

 

职业:针对实际业务场景,如何真正帮助传统行业做数字化转型,数据中台到底要怎么搭建才能真正做到快速响应,支持决策,这些都是未来职业上的一些期望;而在未来,AI的使用也会越来越方便,也许每个人只需花费很少的学习成本就能搭建出一套底层原理极为复杂的机器学习框架,每个人都可以是工程师,每个人又都可以是产品经理,技术的门槛会降低,只要有足够好的idea,就有办法将其实现。

 

第二名 崔玉鹏

 

 

1.报考CDA考试的契机

我目前是北京交通大学交通信息工程及控制专业的研二学生。

我在本科毕设做了有关Storm的流数据分析,在研究生期间对应用更广泛的Spark产生了兴趣,希望系统的学习并结合实际项目以应用在未来工作中。在网上对比了大数据相关考试后,发现CDA的考纲更加系统合理,有助于我系统的学习并在有限期间内进行检测,因此决定报考。

 

2.我是如何备考的

备考3个月,每天学习3-4个小时,对应每个大数据工具借1-2本书,对照考纲和书籍进行学习。 

第一个月:复习Linux,搭建Hadoop、Spark集群,学习Hadoop、spark原理,学习Scala编程。

第二个月:使用Spark进行实例的编写,学习MySQL、Hive、HBase原理及与Spark的结合使用。

第三个月:融合所学知识,对照网上实战教程,进行项目的编写以加深对各个大数据工具的理解。并根据考纲解析进行扩展学习,理解并记忆。

 

3.备考中有哪些知识难点

1)Hadoop和Spark运行机制不易理解,有条件的应去图书馆寻找相关书籍,多看多思考多记忆,阅读源码和断点调试有助于理解。

2)SparkMLlib机器学习部分内容较多,也是实操的重点内容,应结合实例加深对各个算法的理解。

 

4.推荐的书籍和课程

《鸟哥的Linux私房菜》是Linux学习比较生动形象的一本书。

Spark编程基础》是学习Spark入门很好的书籍。

Hadoop专家: 管理、调优与Spark》是Spark和Hadoop进阶学习不错的一本书。

 

5.对备考者们的建议

1)由于大数据生态涉及架构较多,没有基础的同学应以Spark学习为主,有基础的同学应以Spark与各生态结合应用为主,通过考试系统的学习或复习相关知识点,同时Scala的学习有助于阅读Spark源码,加深对Spark原理及应用的理解。

2)考纲解析内容有限,要对照考纲动手整理笔记,以下是我的部分笔记摘要。


3) 学习的目的是应用,不只是考试,每一章节都应寻找相关练习,动手操作,做到每一部分代码至少码三遍。


7.今后的职业发展规划

更加熟练的应用大数据生态,实现高效高价值的数据分析,实现更加精准的数据推荐。

 


完 谢谢观看