发头条

fatoutiao.com 互联网运营专业指南

Home /
人人都可成為資料科學大師!一整年的網路自學清單就在這了

人人都可成為資料科學大師!一整年的網路自學清單就在這了

本文由微信公&#30526 […]

Analyzing financial data

本文由微信公眾號「大數據文摘」授權轉載,選文:孫強,翻譯:趙娟、王珏。大數據文摘微信 ID:BigDataDiagest。原文標題為〈New Year Resolutions for a Data Scientist〉,作者/ MANISH SARASWAT,以下為作者第一人稱描述。

新年並非僅僅是更換日曆或是清晨起床後揉開雙眼。新年是充滿喜悅的一個嶄新開始。它給我們一個完美的理由養成一個新習慣,它意味著新「希望」的到來。

如果你正在閱讀這篇文章,我確信資料科學會讓你興奮!你要在 2016 年做出改變,難道不是嗎?如果你從今天開始致力於實現這些目標,這是完全可能的。你必須明白,成為一個資料科學家需要一個過程,它不是一朝一夕的成功。因此,你必須耐心地朝著目標而努力。

註:這些通用的學習計畫是為有抱負的 / 有經驗的資料科學家準備的。該文章可能不適合非資料分析領域的人員。

我已經將這些學習計畫根據資料科學家的三個水準階段進行了分類。你來決定那個階段最適合你,並進行實踐。當你完成本階段的學習任務後,便可進入下一個階段。針對不同的學習主題,我列出了可獲取的最好的課程。為了達到最佳效果,我建議你逐一學習這些課程。如果你覺得課程學習困難,請與我討論,我會給你提供一個備選方案。方便起見,我分享了可供下載的連接。

  • 初級水準

誰是初學者?如果資料分析和資料科學對你來說是一個全新的領域,你不瞭解這個行業是如何運作的,但是,你滿懷好奇的在該領域發展你的事業,那麼,你就是個初學者。下面就是你的學習目標:

 1. 從程式設計語言開始,無論是 R 或 Python。

我曾看到有學生同時學習 R 和 Python。最終,他們什麼都沒學會。這種學習方法很糟糕。你必須保證自己深入學習 R 或 Python。這是兩個在公司中廣泛應用的開源工具。Python 是公認的最簡單的程式設計語言。R 仍是人們最為喜愛的統計工具。選擇權在你。兩者都很好。

學習課程:在Codecademy完成 Python 的學習。在DataCamp完成 R 的學習。

2. 學習統計學和數學

統計學是關於假設和運算的學科。但是,如果你不懂統計和數學,很難在這個行業立足。它是資料科學家的核心競爭力。如果你的數學不好,是時候改變了。習慣使用強大的統計技術、代數和機率學。在 Khan Academy、 Udacity 等平臺上有非常棒的統計學課程。

學習課程:在 Udacity 上完成 InferentialDescriptive統計學習。在 Khan Academy完成代數的學習。

3. 報名參加一個大型開放式網路課程(MOOC)

大型開放式網路課程(簡稱 MOOC)可以自由訪問和學習。但是,這是你做出的最難實現的承諾。學生們通常一次性報名參加多個課程,但最終一個也完成不了。因此,你必須專注於一個課程,完成之後,在進入下一個課程的學習。你可以在 coursera、edX、Udacity 上學習任何課程。

學習課程:在Coursera完成資料科學專業(R)的學習。在Dataquest完成資料科學 Python 的學習。

4. 積極參與行業實踐,發現新事物

你需要知道這個行業正在發生哪些變化。我們生活在一個充滿活力又瞬息萬變的世界。今天還十分盛行的技術明天可能就過時了。你必須與經驗豐富的專家交流,結識「未來的自己」。現在就開始行動吧,加入討論、參加聚會、關注部落格、參加團體活動,並閱讀專業書籍。你可以在Facebook 上追蹤這方面的最新消息。

  • 中級水準

誰是中等水準的資料科學家?如果你已經完成了初級水準的學習,並且已經嘗試使用機器學習的基礎知識,熟練掌握了建立預測模型的知識,那麼你已經到達了資料科學家的中級水準。達到這個水準需要巨大的決心和大量的練習。準備好迎接這個挑戰了嗎?

1. 理解並構建機器學習技能

機器學習是資料科學與技術的未來。所有大公司在聘僱該項技術人才方面投入大量的資金和人力。毫無疑問,當前這種人才的市場需求巨大。對個人而言,也是個不可多得的好機會。今年,你應當在機器學習方面深入拓展。熟練掌握迴歸分析(Regression)、集群分析( Clustering)、 CART 演算法。

學習課程:在Andrew Ng完成機器學習的課程。

2. 專注於 Ensemble 和 Boosting 演算法的學習

一旦你對機器學習充滿自信,那麼轉攻下一個模型吧。使用 boosting 和 ensemble 演算法,可以使得模型的精度遠遠高於其他演算法。上面分享的免費學習資源已經涵蓋了這個主題。但是,要讓自己更深入的理解這個主題。

學習課程:閱讀 Kaggle 的 Ensembling 指南。在 MIT Lecture 完成 Boosting課程

3. 探索使用 Spark, NoSQL 以及其他大資料處理工具

本年,你將開啟自己的大數據之旅。鑒於大數據人才需求的蓬勃發展,你必須學會 Spark 軟體。最近它非常流行。大資料的未來依賴於 Spark,它被廣泛應用於大資料的操作和處理。通過學習 Spark,你還可以拓展自己的專業知識到 NoSQL , Hadoop 上。

學習課程:Spark

4. 教育社區同伴

還有什麼比知識分享更棒!從今年開始,同那些努力學習資料科學的人分享你的知識。你可以加入活躍的資料科學論壇,幫他們解疑答惑,教會他們有用的技巧和竅門。你也可以舉辦類似的聚會。Follow 我們的FB 粉絲團

5. 參加資料科學競賽

是時候檢驗你的學習效果了。今年你必須參一些競賽,它能幫你認清自己的長處和短板。此外,你會對已掌握的知識更加自信。我希望你能榮登 Kaggle Top500 排名榜。從現在開始,你的目標是成為the Last Man Standing,這是一個資料科學領域的競賽。

行動指南:加入KaggleData Hack

  • 高級水準

我無需定義這類人群。大部分人都非常害怕去嘗試資料科學,但他們卻十分精通。他們已經過上了輕鬆愜意的生活,但是,他們熱愛挑戰。他們是經驗豐富的專家。下面是一些學習計畫:

1. 構建一個深度學習模型(deep learning model)

今年,你要為立志成為資料科學家的人樹立榜樣。你必須創建深度學習(deep learning)的模型。在世界各地,已經有人使用這些模型進行預測了。這是機器學習的高級階段。其準確性已明顯優於一般的機器學習模型。

學習課程:完成Tutorial 的深度學習。

2. 回饋社群

我相信知識是用於分享而不是用於存起來放的。分享得越多,學到的越多。換種方法解釋,「你學到一個新概念,然後解釋給你的兩個朋友聽,你對這個概念的記憶可能會更久。」今年,你訂定一個計畫,利用你的知識和經驗説明資料分析社區的成員。這會説明那些在資料分析領域苦苦掙扎的人們找到勝利的彼岸。

行動計畫:在Discuss上分享你的知識。

3. 探索強化學習(Reinforcement Learning)

強化學習是(Reinforcement Learning)機器學習中最強大的,然而少有人開發的一個分支。今年,在這一領域做些研究。雖然很有挑戰性,但值得一試。無人駕駛、間諜無人機就是強化學習的成果。一旦你開始涉足該領域,你就自動進入人工智慧領域。

學習課程:完成 Andrew Moore 的Tutorial

4. 進入 Kaggle 前 50 名

今年,你必須保持住在 Kaggle 上的「大師」地位,準確的講,確保自己在 Kaggle 排名進入前 50。參加適合自己領域的相關競賽,與其他 kagglers 組隊。參與這個水準的競賽,你會學習到一些在其他地方學不到的理念。

行動計畫:加入Kaggle

追蹤你的進程。2016 年新年學習計畫表 Download

  • 結束語

我理解,這些學習計畫對你具有挑戰性,但值得一試。根據你當前的情況,自由選擇適合自己的學習計畫。我只是羅列了有抱負的資料科學家必須要知道的重要知識和技能。

在上周我意識到,人們並沒有足夠的勇氣制定新年計畫。這個問題也曾困擾著我。因此,我決定寫下這篇文章。我希望,在 2016 年結束之前,你會完成初級水準的學習(假設你是一個新手)。

這篇文章已經為你制定新年計畫掃除了障礙。作為一個有野心的資料科學家,我已經為你提供了滿漢全席,就等著你去啃下它了。在學習的過程中如果遇到任何困難,也請分享你的想法。

pic

(本文獲《大數據文摘》授權轉載,首圖來源:HZ University of Applied Sciences CC Licensed,未經授權請勿轉載。)

  • 延伸資料:

資料有看沒有到》台灣資料科學教父:輕忽 Data 力量,電商落後美國 20 年
資料科學的五大迷思
資料科學的演化爭論:「大數據」會讓國家機器一手掌控世界經濟命脈嗎?

发表评论

电子邮件地址不会被公开。 必填项已用*标注