如何準備機器學(xué)習工程師的面試
我之前面試一些公司的機器學(xué)習或者數據挖掘工程師的職位。感覺(jué)自己準備的不夠充分。想了解下一般會(huì )問(wèn)哪些問(wèn)題,考察哪些方面的東西。

機器學(xué)習方面的面試主要分成三個(gè)部分:
1. 理論方面,我推薦最經(jīng)典的一本書(shū)《統計學(xué)習方法》,這書(shū)可能不是最全的,但是講得最精髓,薄薄一本,適合面試前突擊準備。 我認為一些要點(diǎn)是: 統計學(xué)習的核心步驟:模型、策略、算法,你應當對logistic、SVM、決策樹(shù)、KNN及各種聚類(lèi)方法有深刻的理解。能夠隨手寫(xiě)出這些算法的核心遞歸步的偽代碼以及他們優(yōu)化的函數表達式和對偶問(wèn)題形式。 非統計學(xué)習我不太懂,做過(guò)復雜網(wǎng)絡(luò ),但是這個(gè)比較深,面試可能很難考到。 數學(xué)知識方面,你應當深刻理解矩陣的各種變換,尤其是特征值相關(guān)的知識。 算法方面:你應當深刻理解常用的優(yōu)化方法:梯度下降、牛頓法、各種隨機搜索算法(基因、蟻群等等),深刻理解的意思是你要知道梯度下降是用平面來(lái)逼近局部,牛頓法是用曲面逼近局部等等。
2. 工程實(shí)現能力與編碼水平 機器學(xué)習從工程實(shí)現一般來(lái)講都是某種數據結構上的搜索問(wèn)題。 你應當深刻理解在1中列出的各種算法對應應該采用的數據結構和對應的搜索方法。比如KNN對應的KD樹(shù)、如何給圖結構設計數據結構?如何將算法map-red化等等。 一般來(lái)說(shuō)要么你會(huì )寫(xiě)C,而且會(huì )用MPI,要么你懂Hadoop,工程上基本都是在這兩個(gè)平臺實(shí)現。實(shí)在不濟你也學(xué)個(gè)python吧。
3. 非常令人失望地告訴你盡管機器學(xué)習主要會(huì )考察1和2 但是實(shí)際工作中,算法的先進(jìn)性對真正業(yè)務(wù)結果的影響,大概不到30%。當然算法必須要足夠快,離線(xiàn)算法最好能在4小時(shí)內完成,實(shí)時(shí)算法我沒(méi)搞過(guò),要求大概 更高。 機器學(xué)習大多數場(chǎng)景是搜索、廣告、垃圾過(guò)濾、安全、推薦系統等等。對業(yè)務(wù)有深刻的理解對你做出來(lái)的系統的結果影響超過(guò)70%。這里你沒(méi)做過(guò)實(shí)際的項目,是 完全不可能有任何體會(huì )的,我做過(guò)一個(gè)推薦系統,沒(méi)有什么算法上的`高大上的改進(jìn),主要是業(yè)務(wù)邏輯的創(chuàng )新,直接就提高了很明顯的一個(gè)CTR(具體數目不太方便 透露,總之很明顯就是了)。如果你做過(guò)實(shí)際的項目,一定要主動(dòng)說(shuō)出來(lái),主動(dòng)讓面試官知道,這才是最大最大的加分項目。 最后舉個(gè)例子,阿里內部機器學(xué)習挑戰賽,無(wú)數碾壓答主10000倍的大神參賽。最后冠軍沒(méi)有用任何高大上的算法而是基于對數據和業(yè)務(wù)的深刻理解和極其細致 的特征調優(yōu)利用非;镜囊粋(gè)算法奪冠。所以啥都不如真正的實(shí)操擼幾個(gè)生產(chǎn)項目啊。
【如何準備機器學(xué)習工程師的面試】相關(guān)文章:
如何準備MBA面試09-11
如何準備面試資料09-03
關(guān)于如何準備小升初面試11-29
該如何準備參加面試11-10
如何準備MBA英文面試09-04
德國留學(xué)如何準備面試10-07
如何面試前應該做好的面試準備09-01
面試的自我介紹如何準備01-04