如何成為一名數(shù)據(jù)科學家?
網(wǎng)友解答: 在外界看來,「大數(shù)據(jù)」和「數(shù)據(jù)科學」這樣的詞看起來復雜又神秘。數(shù)據(jù)科學被稱為「21世紀最性感的工作」。所要成為一名數(shù)據(jù)科學家,要實有際的付出,比如,需要具備成為數(shù)據(jù)科學家的三
在外界看來,「大數(shù)據(jù)」和「數(shù)據(jù)科學」這樣的詞看起來復雜又神秘。數(shù)據(jù)科學被稱為「21世紀最性感的工作」。所要成為一名數(shù)據(jù)科學家,要實有際的付出,比如,需要具備成為數(shù)據(jù)科學家的三項能力,以及為走向數(shù)據(jù)科學做好一些準備,觀看一些有關(guān)數(shù)據(jù)科學的優(yōu)秀在線課程,閱讀不得不讀的數(shù)據(jù)科學經(jīng)典書籍;如果,你學有所成,也可以找一些好的測試題自我檢驗一下;而以上,正是本文所要分享的內(nèi)容,希望對你能有所幫助!
數(shù)據(jù)科學家需要具備的三項能力數(shù)據(jù)科學家」這個詞覆蓋的角色很廣,涵蓋了學術(shù)、金融和政府等多種產(chǎn)業(yè)和組織。然而,有三個重要的能力是每位數(shù)據(jù)科學家都必須理解的:
1、必須理解數(shù)據(jù)是有意義的
我們經(jīng)常忽視一個事實,那就是數(shù)據(jù)是有含義的,并且理解其中的意義非常重要。如果我們想要在數(shù)字中獲得有用的洞察,就必須超越數(shù)字,理解它們暗藏的內(nèi)涵。這一點與算法和工程等沒有關(guān)系。理解數(shù)據(jù)是一門藝術(shù),真的非常重要。
2、必須理解你需要解決的問題,以及數(shù)據(jù)與之的聯(lián)系
此時,你可以打開工具箱,找到正確的分析方法和算法來分析數(shù)據(jù)。機器學習可以進行技術(shù)分析。除了機器學習之外,還有幾百種技術(shù)可以用數(shù)據(jù)來解決問題,例如運籌學、決策論、博弈論、控制論等,這些理論都有很長的歷史。一旦你理解了數(shù)據(jù)和你試圖解決的問題,下一步就應該選擇匹配的算法,來獲得有意義的解。
3、必須理解工程問題
第三個能力是理解和運用執(zhí)行分析任務的設(shè)備,就是「如果你在正確的時間和地點沒有基礎(chǔ)設(shè)備來高效精確地運行分析任務,那一切都是白搭?!?/p>做好走向數(shù)據(jù)科學的準備
1、 最重要的是:無論你想要在目前的工作中學到什么,都要找到方法
找到一個涉及更多編碼/數(shù)據(jù)分析且對你的雇主有幫助的項目。嘗試使任何無聊的任務自動化。即使這個過程需要 5 倍的時間(即使這樣的任務你只做一次?。阏峭ㄟ^這樣來學習。
2、分析您擁有的任何數(shù)據(jù)
比如消費前的研究數(shù)據(jù)(即決定要購買哪種微波爐),個人健身追蹤器的數(shù)據(jù),烹飪食譜的營養(yǎng)數(shù)據(jù),為孩子調(diào)查的學前教育數(shù)據(jù)。把它變成一個小型的數(shù)據(jù)分析項目,并寫到博客中。例如如果你是研究生,你可以分析所教學生的年級數(shù)據(jù)。
3、學習最重要的數(shù)據(jù)科學軟件工具
Python's data science stack(pandas / numpy / scipy)是最有用的技術(shù)(閱讀本書?。?,緊隨其后的是 SQL。在學習其他語言之前我會專注于學習 Python 和 SQL。Python 被廣泛使用且非常靈活。如果你決定參與到更多的軟件開發(fā)工作,或者全面進入機器學習,你會有優(yōu)勢。
4、使用 Kaggle
做教程,參加論壇,參加比賽(不要擔心你處于什么水平- 只是專注于每天做得更好一點)。這是學習實用機器技能的最好方法。
5、搜索您所在地區(qū)的數(shù)據(jù)科學和技術(shù)會議
隨著數(shù)據(jù)科學在過去幾年的激增,如今在全球有各種會議。例如,Google 最近在加利福尼亞州山景城舉辦了一次 TensorFlow Dev 峰會,但有全世界觀眾一起觀看直播(包括尼日利亞的阿布賈,印度的哥印拜陀和摩洛哥的拉巴特)。
數(shù)據(jù)科學在線課程在線課程是一個了不起的資源。你可以在家里舒適地跟隨世界上最好的數(shù)據(jù)科學家學習。通常作業(yè)是學習最多的地方,所以不要跳過它們!這里有幾個我最喜歡的課程:
Andrew Ng 的經(jīng)典機器學習公開課(雖然沒有在 Octave / MATLAB 上花太多時間,但他把算法解釋地非常完美),或許用 Python 完成這項工作更好
快速實習深度學習課程。透露:我協(xié)助開設(shè)了這門課程,我們得到了許多學生的積極反饋。其中唯一的先決條件是一年的編碼經(jīng)驗。
Udacity 的數(shù)據(jù)科學系列。
Udacity 的 Web 開發(fā)課程。如果想成為一個數(shù)據(jù)科學家在技術(shù)上不需要了解這些,但成為一個更好的軟件開發(fā)人員可以使你成為一個更好的數(shù)據(jù)科學家,了解如何構(gòu)建自己的網(wǎng)絡應用程序非常有用。
上述強調(diào)的問題之一是,在線可用的信息、教程和課程的數(shù)量或許巨大的,最大的風險之一是不能持之以恒,不能完成或堅持足夠長的時間來學習它。重要的是找到一個「足夠好」的課程或項目,然后堅持下去。找到或組建一個見面團隊來一起學完在線課程或許對解決這個問題有幫助。
在線課程對獲取知識非常有用(做完作業(yè)非常重要,這是你學習的方式)。不過,我還沒發(fā)現(xiàn)獲得證書有啥好處。(雖然我知道這是一個新增長的領(lǐng)域)。因為之前雇傭數(shù)據(jù)科學家時,我面試過很多求職者,而且自己也有這方面的求職經(jīng)驗,都是經(jīng)驗之談。
數(shù)據(jù)科學家要讀的書籍作為一位數(shù)據(jù)科學家、數(shù)據(jù)工程師或機器學習研究者,面對市面上各種各樣的相關(guān)書籍一定會感覺難以取舍。這是一份數(shù)據(jù)驅(qū)動的客觀書單,希望可以有所幫助:
An Introduction to Statistical Learning: With Applications in R(統(tǒng)計學習導論 : 基于R應用)價格:英文版 61.36 美元,中文版 63.1 元
品質(zhì)得分:10/10
這本書在亞馬遜上評分非常高,其作者是來自南加利福尼亞大學、斯坦福大學和華盛頓大學的四位教授 Gareth James、Daniela Witten、Trevor Hastie 和 Rob Tibshirani;他們都有統(tǒng)計學背景。這本書比《The Elements of Statistical Learning(統(tǒng)計學習基礎(chǔ))》更為實用,它給出了一些使用 R 語言實現(xiàn)的案例。
2.The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Second Edition(統(tǒng)計學習基礎(chǔ):數(shù)據(jù)挖掘、推理和預測)
價格:英文版 62.0 美元,中文版 45 元
品質(zhì)得分:9/10
亞馬遜上的高分書籍,作者是斯坦福大學的三位統(tǒng)計學教授。第一作者 Trevor Hastie 具有統(tǒng)計學和生物統(tǒng)計學方面的研究背景。關(guān)于這本書的一個有趣的事情是作者們以統(tǒng)計學的視角看待機器學習問題。這本書似乎過于關(guān)注理論了,所以一些讀者可能傾向于略過它。
3.Pattern Recognition and Machine Learning(模式識別與機器學習)
價格:英文版 60.0 美元,無中文版
品質(zhì)得分:8/10
亞馬遜上的高分書籍,作者是著名作家 Christopher M. Bishop,他是微軟劍橋研究院的一位杰出科學家,領(lǐng)導微軟機器學習與感知研究組。這本書在技術(shù)上全面覆蓋了各種機器學習主題,包括回歸、線性分類、神經(jīng)網(wǎng)絡、核方法和圖模型。
4. Machine Learning: A Probabilistic Perspective(機器學習:概率學的觀點)
價格:英文版 79.16 美元,無中文版
品質(zhì)得分: 7/10
Machine Learning: A Probabilistic Perspective 一書提供了可以自動檢測數(shù)據(jù)模式,然后使用得出的模式預測未來數(shù)據(jù)的方法。該教材基于統(tǒng)一的、概率學的方法對機器學習領(lǐng)域提供了全面的介紹。該書的作者 Kevin Murphy 是谷歌的一位研究人工智能、機器學習、計算機視覺、知識基礎(chǔ)建設(shè)和自然語言處理的研究科學家。
5. Data Mining: Concepts and Techniques, Third Edition(數(shù)據(jù)挖掘:概念與技術(shù),第三版)
價格:英文版 50.0 美元,中文版 79.0 元
品質(zhì)得分: 6/10
Data Mining: Concepts and Techniques, Third Edition 一書的作者是伊利諾伊大學香檳分校計算機科學系的 Jiawei Han(韓家煒)教授。這本書能讓你了解、應用從大數(shù)據(jù)集中發(fā)現(xiàn)隱藏模式的理論和實踐知識。這本書在亞馬遜上獲得了較為平均的評價。
6. Data Mining: Practical Machine Learning Tools and Techniques, Third Edition(數(shù)據(jù)挖掘:實用機器學習工具與技術(shù),第3版)
價格:英文版 37.5 美元,中文版 79.0 元
品質(zhì)得分: 6/10
這本書在亞馬遜上的評價相當不錯,其作者為新西蘭懷卡托大學的三位計算機科學教授。他們也是基于 Java 的數(shù)據(jù)挖掘軟件 Weka 的主要貢獻者。因此,這本書重在數(shù)據(jù)挖掘領(lǐng)域的具體實現(xiàn)方面,尤其是基于 Weka 軟件的工作平臺。
7. Probabilistic Graphical Models: Principles and Techniques(概率圖模型:原理與技術(shù))
價格:英文版 91.66 美元,中文版 198 元
品質(zhì)得分: 6/10
Probabilistic Graphical Models: Principles and Techniques 這本獨特的書提供了設(shè)計自動推理系統(tǒng)的概率圖框架。這本書的作者是兩位計算機科學教授:來自斯坦福大學人工智能實驗室的 Daphne Koller 和來自耶路撒冷希伯來大學的 Nir Friedman。
8. Introduction to Information Retrieval(信息檢索導論)
價格:英文版 57.0 美元,中文版 69 元
品質(zhì)得分: 6/10
Introduction to Information Retrieval 的第一作者是斯坦福計算機科學教授 Christopher Manning。這是講解網(wǎng)絡時代的信息檢索的教科書,包括網(wǎng)絡搜索,以及與文本分類和文本聚類的基本概念相關(guān)的領(lǐng)域。
9. Machine Learning(機器學習)
價格:英文版 211.6 美元,中文版 35 元
品質(zhì)得分: 5/10
Machine Learning 是機器學習領(lǐng)域一本非常著名的著作,其作者是美國卡內(nèi)基·梅隆大學計算機科學教授 Tom Mitchell。Tom Mitchell 是世界上第一個機器學習系的第一任系主任。Machine Learning 一書涵蓋了機器學習的一些基本領(lǐng)域,包括學習、決策樹學習、神經(jīng)網(wǎng)絡、貝葉斯學習、強化學習等。
10. Speech and Language Processing, 2nd Edition(語音和語言處理,第二版)
價格:英文版 78.65 美元,無中文版
品質(zhì)得分: 5/10
Speech and Language Processing 的作者是斯坦福大學語言學和計算機科學教授 Dan Jurafsky。這是全面覆蓋語言技術(shù)的第一本書——在所有層次上且包含所有現(xiàn)代技術(shù)。基于大型企業(yè)使用的應用統(tǒng)計和其它機器學習算法,這本書在語言技術(shù)這一主題上使用了實證的方法
11. Introduction to Data Mining(數(shù)據(jù)挖掘?qū)д摚?/p>
價格:英文版 118.91 美元,中文版 49.0 元
品質(zhì)得分: 4/10
這本書在亞馬遜上獲得了很好的評分,其作者是三位計算機科學教授:密歇根州立大學的 Pang-Ning Tan、明尼蘇達大學的 Michael Steinbach 和 Vipin Kumar。這本書涵蓋了數(shù)據(jù)挖掘的不同基本領(lǐng)域,如:分類、關(guān)聯(lián)分析、聚類和異常檢測。
12. Neural Networks for Pattern Recognition(用于模式識別的神經(jīng)網(wǎng)絡)
價格:英文版 88.42 美元,無中文版
品質(zhì)得分: 4/10
Neural Networks for Pattern Recognition 算是一本老書了,但其作者是微軟劍橋研究院的杰出科學家 Christopher M. Bishop。
13. Foundations of Statistical Natural Language Processing(統(tǒng)計自然語言處理基礎(chǔ))
價格:英文版 87.27 美元,中文版 55 元
品質(zhì)得分: 4/10
Foundations of Statistical Natural Language Processing 是亞馬遜上評分非常好的一本自然語言處理書籍。用統(tǒng)計方法處理自然語言文本近來已經(jīng)占據(jù)了主導地位。這本書對統(tǒng)計自然語言處理(NLP)進行了全面的介紹,含所有開發(fā) NLP 工具所需的理論和算法。
14. Handbook of Statistical Analysis and Data Mining Applications(統(tǒng)計分析和數(shù)據(jù)挖掘應用手冊)
價格:英文版 72.81 美元,無中文版
品質(zhì)得分: 4/10
這本書在亞馬遜的評分高于平均分,其作者是三位在數(shù)據(jù)挖掘和統(tǒng)計學領(lǐng)域有行業(yè)經(jīng)驗的博士。這本書是一本指導商業(yè)分析師、科學家、工程師和研究者的全面的專業(yè)參考書,其中包含不同階段的數(shù)據(jù)分析、建模和實現(xiàn)。
15. Understanding Machine Learning: From Theory to Algorithms(理解機器學習:從理論到算法)
價格:英文版 52.76 美元,無中文版
品質(zhì)得分: 4/10
Understanding Machine Learning: From Theory to Algorithms 提供了解釋機器學習基本思想的廣泛理論和將這些原理轉(zhuǎn)化成實際算法的數(shù)學推導。這本書的兩位作者是分別來自耶路撒冷希伯來大學和滑鐵盧大學的計算機科學教授。
16. Foundations of Machine Learning(機器學習基礎(chǔ))
價格:英文版 96.56 美元,無中文版
品質(zhì)得分: 3/10
Foundations of Machine Learning 是一本研究生階段的教科書,介紹了機器學習的基本概念和方法。這本書描述了幾種重要的算法,提供了這些算法的理論基礎(chǔ),并闡釋了這些算法應用的主要方面。其作者 Mehryar Mohri 是紐約大學庫朗數(shù)學科學研究所的計算機科學教授。
40 道數(shù)據(jù)科學測試題(附答案)如果你是一名數(shù)據(jù)科學家,那就需要對機器學習很擅長,而不只是三腳貓的功夫。測試包括機器學習、深度學習、時序問題以及概率。數(shù)據(jù)科學家可以就這些關(guān)鍵技能進行自我評估。算是對以上內(nèi)容的一個補充。
假定特征 F1 可以取特定值:A、B、C、D、E 和 F,其代表著學生在大學所獲得的評分?,F(xiàn)在請答題:
1. 在下面說法中哪一項是正確的?
A. 特征 F1 是名義變量(nominal variable)的一個實例。
B. 特征 F1 是有序變量(ordinal variable)的一個實例。
C. 該特征并不屬于以上的分類。
D. 以上說法都正確。
答案為(B):有序變量是一種在類別上有某些順序的變量。例如,等級 A 就要比等級 B 所代表的成績好一些。
2. 下面哪個選項中哪一項屬于確定性算法?
A.PCA
B.K-Means
C. 以上都不是
答案為(A):確定性算法表明在不同運行中,算法輸出并不會改變。如果我們再一次運行算法,PCA 會得出相同的結(jié)果,而 k-means 不會。
3. 兩個變量的 Pearson 相關(guān)性系數(shù)為零,但這兩個變量的值同樣可以相關(guān)。
A. 正確
B. 錯誤
答案為(A):Y=X2,請注意他們不僅僅相關(guān)聯(lián),同時一個還是另一個的函數(shù)。盡管如此,他們的相關(guān)性系數(shù)還是為 0,因為這兩個變量的關(guān)聯(lián)是正交的,而相關(guān)性系數(shù)就是檢測這種關(guān)聯(lián)。詳情查看:https://en.wikipedia.org/wiki/Anscombe's_quartet
4. 下面哪一項對梯度下降(GD)和隨機梯度下降(SGD)的描述是正確的?
在 GD 和 SGD 中,每一次迭代中都是更新一組參數(shù)以最小化損失函數(shù)。
在 SGD 中,每一次迭代都需要遍歷訓練集中的所有樣本以更新一次參數(shù)。
在 GD 中,每一次迭代需要使用整個訓練集或子訓練集的數(shù)據(jù)更新一個參數(shù)。
A. 只有 1
B. 只有 2
C. 只有 3
D.1 和 2
E.2 和 3
F. 都正確
答案為(A):在隨機梯度下降中,每一次迭代選擇的批量是由數(shù)據(jù)集中的隨機樣本所組成,但在梯度下降,每一次迭代需要使用整個訓練數(shù)據(jù)集。
5. 下面哪個/些超參數(shù)的增加可能會造成隨機森林數(shù)據(jù)過擬合?
樹的數(shù)量
樹的深度
學習速率
A. 只有 1
B. 只有 2
C. 只有 3
D.1 和 2
E.2 和 3
F. 都正確
答案為(B):通常情況下,我們增加樹的深度有可能會造成模型過擬合。學習速率在隨機森林中并不是超參數(shù)。增加樹的數(shù)量可能會造成欠擬合。
6. 假如你在「Analytics Vidhya」工作,并且想開發(fā)一個能預測文章評論次數(shù)的機器學習算法。你的分析的特征是基于如作者姓名、作者在 Analytics Vidhya 寫過的總文章數(shù)量等等。那么在這樣一個算法中,你會選擇哪一個評價度量標準?
均方誤差
精確度
F1 分數(shù)
A. 只有 1
B. 只有 2
C. 只有 3
D. 1 和 3
E. 2 和 3
F. 1 和 2
答案為(A):你可以把文章評論數(shù)看作連續(xù)型的目標變量,因此該問題可以劃分到回歸問題。因此均方誤差就可以作為損失函數(shù)的度量標準。
7. 給定以下三個圖表(從上往下依次為1,2,3). 哪一個選項對以這三個圖表的描述是正確的?
A. 1 是 tanh,2 是 ReLU,3 是 SIGMOID 激活函數(shù)
B. 1 是 SIGMOID,2 是 ReLU,3 是 tanh 激活函數(shù)
C. 1 是 ReLU,2 是 tanh,3 是 SIGMOID 激活函數(shù)
D. 1 是 tanh,2 是 SIGMOID,3 是 ReLU 激活函數(shù)
答案為(D):因為 SIGMOID 函數(shù)的取值范圍是 [0,1],tanh 函數(shù)的取值范圍是 [-1,1],RELU 函數(shù)的取值范圍是 [0,infinity]。
8. 以下是目標變量在訓練集上的 8 個實際值 [0,0,0,1,1,1,1,1],目標變量的熵是所少?
A. -(5/8 log(5/8) + 3/8 log(3/8))
B. 5/8 log(5/8) + 3/8 log(3/8)
C. 3/8 log(5/8) + 5/8 log(3/8)
D. 5/8 log(3/8) – 3/8 log(5/8)
答案為(A):信息熵的公式為:
9. 假定你正在處理類屬特征,并且沒有查看分類變量在測試集中的分布?,F(xiàn)在你想將 one hot encoding(OHE)應用到類屬特征中。那么在訓練集中將 OHE 應用到分類變量可能要面臨的困難是什么?
A. 分類變量所有的類別沒有全部出現(xiàn)在測試集中
B. 類別的頻率分布在訓練集和測試集是不同的
C. 訓練集和測試集通常會有一樣的分布
D. A 和 B 都正確
E. 以上都不正確
答案為(D):A、B 項都正確,如果類別在測試集中出現(xiàn),但沒有在訓練集中出現(xiàn),OHE 將會不能進行編碼類別,這將是應用 OHE 的主要困難。選項 B 同樣也是正確的,在應用 OHE 時,如果訓練集和測試集的頻率分布不相同,我們需要多加小心。
10.Skip gram 模型是在 Word2vec 算法中為詞嵌入而設(shè)計的最優(yōu)模型。以下哪一項描繪了 Skip gram 模型?
A. A
B. B
C. A 和 B
D. 以上都不是
答案為(B):這兩個模型都是在 Word2vec 算法中所使用的。模型 A 代表著 CBOW,模型 B 代表著 Skip gram。
11. 假定你在神經(jīng)網(wǎng)絡中的隱藏層中使用激活函數(shù) X。在特定神經(jīng)元給定任意輸入,你會得到輸出「-0.0001」。X 可能是以下哪一個激活函數(shù)?
A. ReLU
B. tanh
C. SIGMOID
D. 以上都不是
答案為(B):該激活函數(shù)可能是 tanh,因為該函數(shù)的取值范圍是 (-1,1)。
12. 對數(shù)損失度量函數(shù)可以取負值。
A. 對
B. 錯
答案為(B):對數(shù)損失函數(shù)不可能取負值。
13. 下面哪個/些對「類型 1(Type-1)」和「類型 2(Type-2)」錯誤的描述是正確的?
類型 1 通常稱之為假正類,類型 2 通常稱之為假負類。
類型 2 通常稱之為假正類,類型 1 通常稱之為假負類。
類型 1 錯誤通常在其是正確的情況下拒絕假設(shè)而出現(xiàn)。
A. 只有 1
B. 只有 2
C. 只有 3
D. 1 和 2
E. 1 和 3
F. 3 和 2
答案為(E):在統(tǒng)計學假設(shè)測試中,I 類錯誤即錯誤地拒絕了正確的假設(shè)(即假正類錯誤),II 類錯誤通常指錯誤地接受了錯誤的假設(shè)(即假負類錯誤)。
14. 下面在 NLP 項目中哪些是文本預處理的重要步驟?
詞干提取(Stemming)
移去停止詞(Stop word removal)
目標標準化(Object Standardization)
A. 1 和 2
B. 1 和 3
C. 2 和 3
D. 1、2 和 3
答案為(D):詞干提取是剝離后綴(「ing」,「ly」,「es」,「s」等)的基于規(guī)則的過程。停止詞是與語境不相關(guān)的詞(is/am/are)。目標標準化也是一種文本預處理的優(yōu)良方法。
15. 假定你想將高維數(shù)據(jù)映射到低維數(shù)據(jù)中,那么最出名的降維算法是 PAC 和 t-SNE。現(xiàn)在你將這兩個算法分別應用到數(shù)據(jù)「X」上,并得到數(shù)據(jù)集「X_projected_PCA」,「X_projected_tSNE」。下面哪一項對「X_projected_PCA」和「X_projected_tSNE」的描述是正確的?
A. X_projected_PCA 在最近鄰空間能得到解釋
B. X_projected_tSNE 在最近鄰空間能得到解釋
C. 兩個都在最近鄰空間能得到解釋
D. 兩個都不能在最近鄰空間得到解釋
答案為(B):t-SNE 算法考慮最近鄰點而減少數(shù)據(jù)維度。所以在使用 t-SNE 之后,所降的維可以在最近鄰空間得到解釋。但 PCA 不能。
16-17 題的背景:給定下面兩個特征的三個散點圖(從左到右依次為圖 1、2、3)。
16. 在上面的圖像中,哪一個是多元共線(multi-collinear)特征?
A. 圖 1 中的特征
B. 圖 2 中的特征
C. 圖 3 中的特征
D. 圖 1、2 中的特征
E. 圖 2、3 中的特征
F. 圖 1、3 中的特征
答案為(D):在圖 1 中,特征之間有高度正相關(guān),圖 2 中特征有高度負相關(guān)。所以這兩個圖的特征是多元共線特征。
17. 在先前問題中,假定你已經(jīng)鑒別了多元共線特征。那么下一步你可能的操作是什么?
移除兩個共線變量
不移除兩個變量,而是移除一個
移除相關(guān)變量可能會導致信息損失。為了保留這些變量,我們可以使用帶罰項的回歸模型(如 ridge 或 lasso regression)。
A. 只有 1
B. 只有 2
C. 只有 3
D. 1 或 3
E. 1 或 2
答案為(E):因為移除兩個變量會損失一切信息,所以我們只能移除一個特征,或者也可以使用正則化算法(如 L1 和 L2)。
18. 給線性回歸模型添加一個不重要的特征可能會造成:
增加 R-square
減少 R-square
A. 只有 1 是對的
B. 只有 2 是對的
C. 1 或 2 是對的
D. 都不對
答案為(A):在給特征空間添加了一個特征后,不論特征是重要還是不重要,R-square 通常會增加。
19. 假設(shè)給定三個變量 X,Y,Z。(X, Y)、(Y, Z) 和 (X, Z) 的 Pearson 相關(guān)性系數(shù)分別為 C1、C2 和 C3?,F(xiàn)在 X 的所有值加 2(即 X+2),Y 的全部值減 2(即 Y-2),Z 保持不變。那么運算之后的 (X, Y)、(Y, Z) 和 (X, Z) 相關(guān)性系數(shù)分別為 D1、D2 和 D3。現(xiàn)在試問 D1、D2、D3 和 C1、C2、C3 之間的關(guān)系是什么?
A. D1= C1, D2 < C2, D3 C3
B. D1 = C1, D2 C2, D3 C3
C. D1 = C1, D2 C2, D3 < C3
D. D1 = C1, D2 < C2, D3 < C3
E. D1 = C1, D2 = C2, D3 = C3
F. 無法確定
答案為(E):特征之間的相關(guān)性系數(shù)不會因為特征加或減去一個數(shù)而改變。
20. 假定你現(xiàn)在解決一個有著非常不平衡類別的分類問題,即主要類別占據(jù)了訓練數(shù)據(jù)的 99%?,F(xiàn)在你的模型在測試集上表現(xiàn)為 99% 的準確度。那么下面哪一項表述是正確的?
準確度并不適合于衡量不平衡類別問題
準確度適合于衡量不平衡類別問題
精確率和召回率適合于衡量不平衡類別問題
精確率和召回率不適合于衡量不平衡類別問題
A. 1 and 3
B. 1 and 4
C. 2 and 3
D. 2 and 4
答案為(A):參考問題 4 的解答。
21. 在集成學習中,模型集成了弱學習者的預測,所以這些模型的集成將比使用單個模型預測效果更好。下面哪個/些選項對集成學習模型中的弱學習者描述正確?
他們經(jīng)常不會過擬合
他們通常帶有高偏差,所以其并不能解決復雜學習問題
他們通常會過擬合
A. 1 和 2
B. 1 和 3
C. 2 和 3
D. 只有 1
E. 只有 2
F. 以上都不對
答案為(A):弱學習者是問題的特定部分。所以他們通常不會過擬合,這也就意味著弱學習者通常擁有低方差和高偏差。
22. 下面哪個/些選項對 K 折交叉驗證的描述是正確的
增大 K 將導致交叉驗證結(jié)果時需要更多的時間
更大的 K 值相比于小 K 值將對交叉驗證結(jié)構(gòu)有更高的信心
如果 K=N,那么其稱為留一交叉驗證,其中 N 為驗證集中的樣本數(shù)量
A. 1 和 2
B. 2 和 3
C. 1 和 3
D. 1、2 和 3
答案為(D):大 K 值意味著對過高估計真實預期誤差(訓練的折數(shù)將更接近于整個驗證集樣本數(shù))擁有更小的偏差和更多的運行時間(并隨著越來越接近極限情況:留一交叉驗證)。我們同樣在選擇 K 值時需要考慮 K 折準確度和方差間的均衡。
23 題至 24 題的背景:交叉驗證在機器學習超參數(shù)微調(diào)中是十分重要的步驟。假定你需要為 GBM 通過選擇 10 個不同的深度值(該值大于 2)而調(diào)整超參數(shù)「max_depth」,該樹型模型使用 5 折交叉驗證。 4 折訓練驗證算法(模型 max_depth 為 2)的時間為 10 秒,在剩下的 1 折中預測為 2 秒。
23. 哪一項描述擁有 10 個「max_depth」不同值的 5 折交叉驗證整體執(zhí)行時間是正確的?
A. 少于 100 秒
B. 100-300 秒
C. 300-600 秒
D. 大于等于 600 秒
E. 無法估計
答案為(D):因為深度為 2 的 5 折交叉驗證每一次迭代需要訓練 10 秒和測試 2 秒。因此五折驗證需要 12*5 = 60 秒,又因為我們需要搜索 10 個深度值,所以算法需要 60*10 = 600。
24. 在先前的答案中,如果你訓練同樣的算法調(diào)整 2 個超參數(shù),假設(shè)是 max_depth 和 learning_rate。你想要選擇正確的值對抗 max_depth(從給定的 10 個深度值中)和學習率(從 5 個不同的學習率做選擇)。在此情況下,整體時間是下面的哪個?
A.1000-1500 秒
B.1500-3000 秒
C. 多于或等于 3000 Second
D. 都不是
答案為(D):和 23 題一樣。
25. 下表是機器學習算法 M1 的訓練錯誤率 TE 和驗證錯誤率 VE,基于 TE 和 VE 你想要選擇一個超參數(shù)(H)。
基于上表,你會選擇哪個 H 值?
A.1
B.2
C.3
D.4
E.5
答案為(D):看這個表,D 選項看起來是最好的。
26. 為了得到和 SVD 一樣的投射(projection),你需要在 PCA 中怎樣做?
A. 將數(shù)據(jù)轉(zhuǎn)換成零均值
B. 將數(shù)據(jù)轉(zhuǎn)換成零中位數(shù)
C. 無法做到
D. 以上方法不行
答案為(A):當數(shù)據(jù)有一個 0 均值向量時,PCA 有與 SVD 一樣的投射,否則在使用 SVD 之前,你必須將數(shù)據(jù)均值歸 0。
問題 27-28 的背景:假設(shè)存在一個黑箱算法,其輸入為有多個觀察(t1, t2, t3,…….. tn)的訓練數(shù)據(jù)和一個新的觀察(q1)。該黑箱算法輸出 q1 的最近鄰 ti 及其對應的類別標簽 ci。你可以將這個黑箱算法看作是一個 1-NN(1-最近鄰)
27. 能夠僅基于該黑箱算法而構(gòu)建一個 k-NN 分類算法?注:相對于 k 而言,n(訓練觀察的數(shù)量)非常大。
A. 可以
B. 不行
答案為(A):在第一步,你在這個黑箱算法中傳遞一個觀察樣本 q1,使該算法返回一個最近鄰的觀察樣本及其類別,在第二步,你在訓練數(shù)據(jù)中找出最近觀察樣本,然后再一次輸入這個觀察樣本(q1)。該黑箱算法將再一次返回一個最近鄰的觀察樣本及其類別。你需要將這個流程重復 k 次。
28. 我們不使用 1-NN 黑箱,而是使用 j-NN(j1) 算法作為黑箱。為了使用 j-NN 尋找 k-NN,下面哪個選項是正確的?
A. j 必須是 k 的一個合適的因子
B. jk
C. 不能辦到
答案為(C):原因和 27 題一樣
29. 有以下 7 副散點圖(從左到右分別編號為 1-7),你需要比較每個散點圖的變量之間的皮爾遜相關(guān)系數(shù)。下面正確的比較順序是?
1<2<3<4
123 4
7<6<5<4
7654
A. 1 和 3
B. 2 和 3
C. 1 和 4
D. 2 和 4
30. 你可以使用不同的標準評估二元分類問題的表現(xiàn),例如準確率、log-loss、F-Score。讓我們假設(shè)你使用 log-loss 函數(shù)作為評估標準。下面這些選項,哪個/些是對作為評估標準的 log-loss 的正確解釋。
如果一個分類器對不正確的分類很自信,log-loss 會嚴重的批評它。
對一個特別的觀察而言,分類器為正確的類別分配非常小的概率,然后對 log-loss 的相應分布會非常大。
3.log-loss 越低,模型越好。
A.1 和 3
B.2 和 3
C.1 和 2
D.1、2、3
答案為(D):答案無需解釋。
問題 31-32 背景:下面是數(shù)據(jù)集給出的 5 個樣本。
注意:圖像中點之間的視覺距離代表實際距離。
31. 下面哪個是 3-NN(3-最近鄰)的留一法交叉驗證準確率?
A.0
B.0.4
C.0.8
D.1
答案為(C):留一法交叉驗證,我們將選擇(n-1) 觀察值作為訓練,以及驗證的 1 觀察值。把每個點作為交叉驗證點,然后找到 3 個最近鄰點。所以,如果你在每個點上重復該步驟,你會為上圖中給出的所有正類找到正確的分類,而錯誤分類負類。因此,得到 80% 的準確率。
32. 下面哪個 K 值將會有最低的差一法(leave-one-out)交叉驗證精確度?
A. 1NN
B. 3NN
C. 4NN
D. 以上所有具有相同的差一法錯誤
答案(A):在 1-NN 中,被錯誤分類的每一個點都意味著你將得到 0% 的精確度。
33. 假設(shè)你被給到以下數(shù)據(jù),你想要在給定的兩個類別中使用 logistic 回歸模型對它進行分類。你正在使用帶有 L1 正則化的 logistic 回歸,其中 C 是正則化參數(shù),w1 和 w2 是 x1 和 x2 的系數(shù)。當你把 C 值從 0 增加至非常大的值時,下面哪個選項是正確的?
A. 第一個 w2 成了 0,接著 w1 也成了 0
B. 第一個 w1 成了 0,接著 w2 也成了 0
C. w1 和 w2 同時成了 0
D. 即使在 C 成為大值之后,w1 和 w2 都不能成 0
答案(B):通過觀察圖像我們發(fā)現(xiàn),即使只使用 x2,我們也能高效執(zhí)行分類。因此一開始 w1 將成 0;當正則化參數(shù)不斷增加時,w2 也會越來越接近 0。
34. 假設(shè)我們有一個數(shù)據(jù)集,在一個深度為 6 的決策樹的幫助下,它可以使用 100% 的精確度被訓練。現(xiàn)在考慮一下兩點,并基于這兩點選擇正確的選項。
注意:所有其他超參數(shù)是相同的,所有其他因子不受影響。
深度為 4 時將有高偏差和低方差
深度為 4 時將有低偏差和低方差
A. 只有 1
B. 只有 2
C. 1 和 2
D. 沒有一個
答案(A):如果在這樣的數(shù)據(jù)中你擬合深度為 4 的決策樹,這意味著其更有可能與數(shù)據(jù)欠擬合。因此,在欠擬合的情況下,你將獲得高偏差和低方差。
35. 在 k-均值算法中,以下哪個選項可用于獲得全局最小?
嘗試為不同的質(zhì)心(centroid)初始化運行算法
調(diào)整迭代的次數(shù)
找到集群的最佳數(shù)量
A. 2 和 3
B. 1 和 3
C. 1 和 2
D. 以上所有
答案(D):所有都可以用來調(diào)試以找到全局最小。
36. 假設(shè)你正在做一個項目,它是一個二元分類問題。你在數(shù)據(jù)集上訓練一個模型,并在驗證數(shù)據(jù)集上得到混淆矩陣。基于上述混淆矩陣,下面哪個選項會給你正確的預測。
精確度是~0.91
錯誤分類率是~0.91
假正率(False correct classification)是~0.95
真正率(True positive rate)是~0.95
A. 1 和 3
B. 2 和 4
C. 1 和 4
D. 2 和 3
答案(C):精確度(正確分類)是 (50+100)/165,約等于 0.91。真正率是你正確預測正分類的次數(shù),因此真正率將是 100/105 = 0.95,也被稱作敏感度或召回。
37. 對于下面的超參數(shù)來說,更高的值對于決策樹算法更好嗎?
用于拆分的樣本量
樹深
樹葉樣本
A. 1 和 2
B. 2 和 3
C. 1 和 3
D. 1、2 和 3
E. 無法分辨
答案(E):對于選項 A、B、C 來說,如果你增加參數(shù)的值,性能并不一定會提升。例如,如果我們有一個非常高的樹深值,結(jié)果樹可能會過擬合數(shù)據(jù),并且也不會泛化。另一方面,如果我們有一個非常低的值,結(jié)果樹也許與數(shù)據(jù)欠擬合。因此我們不能確定更高的值對于決策樹算法就更好。
38-39 題背景 :想象一下,你有一個 28x28 的圖片,并使用輸入深度為 3 和輸出深度為 8 在上面運行一個 3x3 的卷積神經(jīng)網(wǎng)絡。注意,步幅是 1,你正在使用相同的填充(padding)。
38. 當使用給定的參數(shù)時,輸出特征圖的尺寸是多少?
A. 28 寬、28 高、8 深
B. 13 寬、13 高、8 深
C. 28 寬、13 高、8 深
D. 13 寬、28 高、8 深
答案(A):計算輸出尺寸的公式是:輸出尺寸=(N – F)/S + 1。其中,N 是輸入尺寸,F(xiàn) 是過濾器尺寸,S 是步幅。閱讀這篇文章(鏈接:https://www.analyticsvidhya.com/blog/2016/04/deep-learning-computer-vision-introduction-convolution-neural-networks/)獲得更多了解。
39. 當使用以下參數(shù)時,輸出特征圖的尺寸是多少?
A. 28 寬、28 高、8 深
B. 13 寬、13 高、8 深
C. 28 寬、13 高、8 深
D. 13 寬、28 高、8 深
答案 (B):同上
40. 假設(shè),我們正在 SVM 算法中為 C(懲罰參數(shù))的不同值進行視覺化繪圖。由于某些原因,我們忘記了使用視覺化標注 C 值。這個時候,下面的哪個選項在 rbf 內(nèi)核的情況下最好地解釋了下圖(1、2、3 從左到右,圖 1 的 C 值 是 C 1,圖 2 的 C 值 是 C 2,圖 3 的 C 值 是 C 3)中的 C 值。
A. C1 = C2 = C3
B. C1 C2 C3
C. C1 < C2 < C3
D. 沒有一個
答案 (C):錯誤項的懲罰參數(shù) C。它也控制平滑決策邊界和訓練點正確分類之間的權(quán)衡。對于 C 的大值,優(yōu)化會選擇一個較小邊距的超平面。
網(wǎng)友解答:要想成為一名數(shù)據(jù)科學家,先了解一下2017年數(shù)據(jù)領(lǐng)域的趨勢,以及數(shù)據(jù)科學家在其中發(fā)揮的作用。
本文來自酷米號“造就”的文章《2017年的數(shù)據(jù)策略,會有哪些大趨勢?》希望對您有幫助,更多關(guān)于數(shù)據(jù)科學的內(nèi)容敬請關(guān)注酷米號“造就”。數(shù)據(jù)不只是企業(yè)的一項業(yè)務,而是關(guān)系到整個公司的命運——它是燃料,是飼料,是動力。在過去一年里,這一事實越來越得到眾人的認可。因此,積極制定改善企業(yè)數(shù)據(jù)策略的必要性應該引起重視。關(guān)于數(shù)據(jù)策略在過去一年的情況和未來一年的趨勢,我們請多位數(shù)據(jù)專家和思想領(lǐng)袖談了他們的看法。
受訪者包括:美國威斯康星大學麥迪遜分校首席數(shù)據(jù)官杰森·費希貝恩(Jason Fishbain);First San Francisco Partners公司總裁約翰·拉德利(John Ladley);被譽為“數(shù)據(jù)醫(yī)生”的Data Quality Solutions公司總裁托馬斯·雷德曼(Thomas C. Redman);Nationwide公司首席數(shù)據(jù)官吉姆·泰約(Jim Tyo)。
他們的看法應該有助于企業(yè)反思已經(jīng)采取的措施,并思索在新的一年里應該采取哪些措施,讓數(shù)據(jù)策略能夠與數(shù)據(jù)價值相符。
回顧2016年受訪者指出,在過去的一年里,數(shù)據(jù)策略取得了巨大進步,但也存在美中不足之處。
越來越多的企業(yè)將設(shè)立首席數(shù)據(jù)官(CDO)崗位,這是大多數(shù)受訪者都認同的一個趨勢。拉德利說,CDO的涌現(xiàn)表明,企業(yè)已經(jīng)開始認識到數(shù)據(jù)資產(chǎn)的重要性。
據(jù)預測,到2020年,近九成的財富500強企業(yè)將設(shè)立首席數(shù)據(jù)官或同等職位。泰約覺得這是件值得慶賀的好事,因為:
“這一職務不斷涌現(xiàn)的好處在于,CDO越多,我們可以參考和仿效的商業(yè)模式就越多,數(shù)據(jù)界的成功機會就越多?!?/p>
泰約說,早期的CDO們“克服最初的艱難困苦,制定出正確的策略,如今將可在利用數(shù)據(jù)推動業(yè)務發(fā)展方面處于非常有利的地位”。在Nationwide公司,每一位業(yè)務主管都說數(shù)據(jù)很重要,這與幾年前形成鮮明對比。他說:“現(xiàn)在,復雜棘手的下一個問題在于,我們?nèi)绾卫脭?shù)據(jù)來獲得競爭優(yōu)勢?”
拉德利認為,這是很多企業(yè)將在2017年面對的一個數(shù)據(jù)策略問題,因為各行各業(yè)不同規(guī)模的公司都越來越重視數(shù)據(jù)的貨幣化。他說:“把數(shù)據(jù)視為具有可替代價值的資產(chǎn),這種想法如今在影響著企業(yè)戰(zhàn)略甚至愿景的設(shè)定。”
另一方面,并不是所有公司都充分意識到了數(shù)據(jù)資產(chǎn)的價值。例如,拉德利指出,某些公司的CDO流動率很高,說明這一崗位的職責還不夠明確,企業(yè)還不習慣領(lǐng)導層中的這個新角色。這方面的“不安定”可能與某些企業(yè)文化問題有關(guān)。數(shù)據(jù)驅(qū)動企業(yè)必須靠有力的數(shù)據(jù)策略來推動,而這些問題的存在仍在拖慢它們進步的腳步。
泰約說,有些企業(yè)認為,建立數(shù)據(jù)驅(qū)動的文化就是“企圖取代曾使企業(yè)功成名就的偉大傳承和文化”。事實并非如此。他說,使命和價值驅(qū)動的文化會令企業(yè)變得很偉大,“而CDO只是試圖引入基于事實、洞察驅(qū)動的方法,好讓這種文化與客戶更加契合?!?/p>
拉德利說,真正意義上的數(shù)據(jù)驅(qū)動將大幅改變企業(yè)的商業(yè)模式,影響到管理、架構(gòu)和運營。按照雷德曼的說法,不能只從字面上去理解“數(shù)據(jù)驅(qū)動的文化”,可惜這種事情常常發(fā)生。
展望2017年(及以后)受訪者談到了哪些將是企業(yè)數(shù)據(jù)策略的優(yōu)先事項。
雷德曼的回答是繼續(xù)朝向真正的數(shù)據(jù)驅(qū)動文化邁進。他說,成為數(shù)據(jù)驅(qū)動型企業(yè)意味著做出意義深遠的改變,包括:制定積極的計劃來照料數(shù)據(jù)(主要涉及質(zhì)量和安全);落實這一計劃,并及時制定和執(zhí)行以獲取市場競爭優(yōu)勢為目標的數(shù)據(jù)策略;推進管理體系建設(shè),充分發(fā)揮數(shù)據(jù)的特殊屬性。此外,還需要“一份積極主動的計劃,獲取更多的數(shù)據(jù),并以越來越有效的方式將數(shù)據(jù)和直覺結(jié)合起來,使個人和團隊作出更好的決策”。
他還說,看到他提出的“數(shù)據(jù)煽動者”概念引起了很多人的共鳴,這讓他非常高興?!皵?shù)據(jù)煽動者”是指一個人意識到有更好的方法來處理部門的數(shù)據(jù)問題并肩負起這個挑戰(zhàn),從而成為公司其他部門的榜樣。
他說:“我希望在2017年及以后,數(shù)據(jù)煽動者的概念會繼續(xù)引起關(guān)注,有越來越多的人來扮演這個角色?!绷硗?,他認為,最具前瞻性的企業(yè)已經(jīng)開始意識到利用專有數(shù)據(jù)獲取競爭優(yōu)勢的重要性。
拉德利把改進商業(yè)智能(BI)和數(shù)據(jù)報告作為優(yōu)先事項,因為他說:“傳統(tǒng)的報告和BI架構(gòu)大多已經(jīng)過時”。加強數(shù)據(jù)的報告分析基礎(chǔ)也在泰約的清單上,原因是“和我交談過的十位企業(yè)高管中,有九位都把簡潔快速的報告和分析列為他們在數(shù)據(jù)方面的優(yōu)先事項”。他認為,這在很大程度上源于數(shù)據(jù)辦公室的“酷因素”正在拓展到大數(shù)據(jù)、物聯(lián)網(wǎng)、機器學習、人工智能等方面,但中小型數(shù)據(jù)、運營報告和更傳統(tǒng)的分析與建模需求同樣重要。
“獲取(恰當數(shù)據(jù)的)能力不足將催生出影子企業(yè)或以外包優(yōu)先的數(shù)據(jù)策略。”泰約說。為了避免這種問題,數(shù)據(jù)策略應該包括建立“一個專門的辦公室,為處于數(shù)據(jù)成熟度不同階段的業(yè)務提供不同選擇”。
泰約還認為,利用數(shù)據(jù)來實現(xiàn)客戶體驗差異化和規(guī)范性建模(就特定結(jié)果提供建議)將引起關(guān)注。而拉德利認為,所有企業(yè)都將熱烈擁抱預測分析,不管他們需不需要。預測分析提供基于數(shù)據(jù)的可執(zhí)行見解?!懊课籆EO都想獲得新的見解,哪怕他們現(xiàn)在連準確的運營報告都還拿不到?!彼f。
拉德利還說,數(shù)據(jù)治理(仍然是重要的企業(yè)活動,常常作為主數(shù)據(jù)管理或者大數(shù)據(jù)等工作的一部分)將從IT或IM轉(zhuǎn)移到合規(guī)或風險管理領(lǐng)域?!癐T內(nèi)部的數(shù)據(jù)治理不管用。這種看法將繼續(xù)蔓延?!彼f。
從縱向角度來看(這里是指高等教育),費希貝恩認為,數(shù)據(jù)策略將圍繞著收集和利用新的數(shù)據(jù)來源展開,以便改善教學?!敖档蛯W生入學費、提高畢業(yè)率的壓力很大?!彼f,“數(shù)據(jù)策略必須與這種壓力相適應?!?/p>提到數(shù)據(jù)策略,應該對哪些方面多加注意?
費希貝恩認為,應該更加注意理解數(shù)據(jù)背后的語境:數(shù)據(jù)是如何收集的?利用已有數(shù)據(jù)可以作出什么決定?還可利用哪些數(shù)據(jù)源切實看清局勢發(fā)展,從而作出更明智的決定?“如果只看數(shù)據(jù)而忽略語境,還能算是數(shù)據(jù)驅(qū)動型文化嗎?”他如此發(fā)問。
拉德利說,元數(shù)據(jù)必不可少,也是最基本的要素,他希望看到更多的企業(yè)“認真務實地部署一些出色的元數(shù)據(jù)設(shè)施”。他并不介意企業(yè)的數(shù)據(jù)策略將重心更多地放在數(shù)據(jù)使用方面的協(xié)作上。他說,大部分企業(yè)就連數(shù)據(jù)使用方面的配合都做不到:
“真正的協(xié)作需要企業(yè)拋棄過時的卓越中心概念,轉(zhuǎn)而把數(shù)據(jù)視為跨越各座孤島的大一統(tǒng)因素,就像財務和預算那樣?!?/p>
說到孤島,“我希望看到傳統(tǒng)的孤島型企業(yè)能以有實質(zhì)意義的方式,更好地接納數(shù)據(jù)可視化?!碧┘s說,“利用企業(yè)的工具與設(shè)施,更多地聚合數(shù)據(jù)源,將會加強整個計劃的效果,加速實現(xiàn)CDO的很多戰(zhàn)略目標?!?/p>
在雷德曼看來,他到目前為止看到的種種數(shù)據(jù)策略“亮點”尚未有效疊加成有實際意義的模式。他仍然擔心,企業(yè)不會從以前犯下的數(shù)據(jù)質(zhì)量和數(shù)據(jù)架構(gòu)錯誤中吸取教訓,比如尋求短期的緩解而放過更深層次的原因。此外,“我認為很多企業(yè)的行動不夠快,整個行業(yè)的行動也不夠快。”他說。
他認為,現(xiàn)在是進入數(shù)據(jù)領(lǐng)域的最好時機。但“如果行動不夠快,那么發(fā)生另一場危機的可能性就會提高。”雷德曼說,“經(jīng)濟大蕭條與壞數(shù)據(jù)有很深的淵源——而我們承受不起第二次?!?/p>
翻譯:于波
來源:Dataversity
造就:劇院式的線下演講平臺,發(fā)現(xiàn)最有創(chuàng)造力的思想