機器學習算法工程師要求（機器學習超全的機器學習算法崗面試與提問總結）

發(fā)布時間：2024-01-19閱讀(12)

導讀就自己的經(jīng)驗總結一些準備機器學習算法崗位求職的粗淺經(jīng)驗，簡要地分享一下一個完整的機器學習工程師的面試過程主要有以下這些環(huán)節(jié)：自我介紹、項目介紹、算法推導和解....

就自己的經(jīng)驗總結一些準備機器學習算法崗位求職的粗淺經(jīng)驗，簡要地分享一下一個完整的機器學習工程師的面試過程主要有以下這些環(huán)節(jié)：自我介紹、項目介紹、算法推導和解釋、數(shù)據(jù)結構與算法題（寫代碼），今天小編就來聊一聊關于機器學習算法工程師要求?接下來我們就一起去研究一下吧!

機器學習算法工程師要求

就自己的經(jīng)驗總結一些準備機器學習算法崗位求職的粗淺經(jīng)驗，簡要地分享一下。一個完整的機器學習工程師的面試過程主要有以下這些環(huán)節(jié)：自我介紹、項目介紹、算法推導和解釋、數(shù)據(jù)結構與算法題（寫代碼）。

關于自我介紹，主要就是簡單介紹下自己的教育背景，在校期間的研究方向和所做的項目以及在項目中所充當?shù)慕巧鹊龋瑸橹蟮拿嬖囎鰝€鋪墊，讓面試官從中捕捉點來問。

項目介紹是最為重要的，這也是體現(xiàn)你綜合實力的地方，對項目背景、項目實現(xiàn)的方案，項目所實現(xiàn)的東西都要了如指掌，做機器學習的，必然需要準備一到兩個重點的機器學習項目，可以是比賽，也可以是實驗室項目，關鍵是項目中間的技術細節(jié)都要了如指掌，比如你用了樹模型，就得知道所有樹模型相關的推導和原理，決不能含糊，一旦你說不太清楚，面試官就會對項目的真實性存疑。參加比賽應該是沒有實驗室項目的同學最佳的積累經(jīng)驗的途徑，比較好的比賽平臺有Kaggle、天池大數(shù)據(jù)、datacastle等

接下來就是機器學習算法原理和推導，這也是要重點去準備的，在面試前得達到，給你一張白紙，你可以把推導的每一步寫的清清楚楚的，推導的話面試常考邏輯回歸和SVM的推導，關于原理面試官常會問你幾個樹模型之間的對比等等等，其他的算法比如LR、SVM、EM、Adaboost、PageRank、 FFM、決策樹，隨機森林， GBDT ， XGBoost 、推薦算法、聚類、CNN、RNN、LSTM、Word2Vec等等，以及他們的適用場景，再如一些機器學習的理論，非平衡問題、過擬合問題，交叉驗證問題，模型選擇問題，模型融合問題。這一部分我會在文末貼出一個問題集錦，大家按照這個去準備就行。還有必看的書李航的《統(tǒng)計學習方法》、周志華的《機器學習》、項亮的《推薦系統(tǒng)實踐》

最后就是寫代碼了，很多非計算機出身的大都會栽在這個地方，代碼寫得少，訓練不到位，就會導致當場思路不清晰，不知從哪寫起，但目前市面上已經(jīng)有很多專門為這塊總結的一些書籍，推薦使用《劍指offer》、《王道程序員求職寶典》等等，有時間的話再刷一下leetcode。排序算法、查找算法、二叉樹遍歷這些最基本的一定要很順溜的寫下來，其他的就看自己去拓展了。

至于進入互聯(lián)網(wǎng)公司之后，算法工程師或者數(shù)據(jù)挖掘工程師的工作內(nèi)容有哪些呢？大部分的同學就是在跑數(shù)據(jù)，各種MapReduce，Hive SQL，數(shù)據(jù)倉庫搬磚，然后進行很耗費時間的數(shù)據(jù)清洗，對業(yè)務進行分析，對案例進行分析，不斷的找特征，再丟到模型里面。大部分的與業(yè)務結合緊密的模型的算法優(yōu)化都是有足夠業(yè)務經(jīng)驗的數(shù)據(jù)科學家在做，而沒有經(jīng)驗的應屆生需要慢慢培養(yǎng)對業(yè)務的敏感度和對數(shù)據(jù)的認知，這也是稱為數(shù)據(jù)科學家必需的技能。

以下是我總結出來的在算法崗面試過程中可能會遇到的問題，都分門別類的按照算法排列好了，大家可以在系統(tǒng)地梳理了一遍算法之后對問題進行排查，爭取每個問題都可以答得上來，當然針對自己項目里的遇到的算法，就更需要熟悉掌握了。

此外，在準備面試的過程中，我自己總結了幾個系列的筆記，【機器學習系列】【數(shù)據(jù)結構與算法】【自然語言處理】【深度學習】【數(shù)據(jù)分析】等，大家可以直接訪問個人博客：http://plushunter.github.io

SVM：

簡單介紹SVM（詳細原理）：從分類平面，到求兩類間的最大間隔，到轉(zhuǎn)化為求間隔分之一，等優(yōu)化問題，然后就是優(yōu)化問題的解決辦法，首先是用拉格拉日乘子把約束優(yōu)化轉(zhuǎn)化為無約束優(yōu)化，對各個變量求導令其為零，得到的式子帶入拉格朗日式子從而轉(zhuǎn)化為對偶問題，最后再利用SMO（序列最小優(yōu)化）來解決這個對偶問題。svm里面的c有啥用
SVM的推導，解釋原問題和對偶問題，SVM原問題和對偶問題的關系，KKT限制條件，KKT條件用哪些，完整描述；軟間隔問題，解釋支持向量、核函數(shù)（哪個地方引入、畫圖解釋高維映射，高斯核可以升到多少維，如何選擇核函數(shù)），引入拉格朗日的優(yōu)化方法的原因，最大的特點，損失函數(shù)解釋，
SVM與LR最大區(qū)別，LR和SVM對于outlier的敏感程度分析，邏輯回歸與SVM的區(qū)別
為什么要把原問題轉(zhuǎn)換為對偶問題？因為原問題是凸二次規(guī)劃問題，轉(zhuǎn)換為對偶問題更加高效。為什么求解對偶問題更加高效？因為只用求解alpha系數(shù)，而alpha系數(shù)只有支持向量才非0，其他全部為0.alpha系數(shù)有多少個？樣本點的個數(shù)
加大訓練數(shù)據(jù)量一定能提高SVM準確率嗎？
與感知器的聯(lián)系和優(yōu)缺點比較
如何解決多分類問題、可以做回歸嗎，怎么做
它與其他分類器對比的優(yōu)缺點，它的速度
機器學習有很多關于核函數(shù)的說法，核函數(shù)的定義和作用是什么？https://www.zhihu.com/question/24627666
支持向量機(SVM)是否適合大規(guī)模數(shù)據(jù)？https://www.zhihu.com/question/19591450
SVM和邏輯斯特回歸對同一樣本A進行訓練，如果某類中增加一些數(shù)據(jù)點，那么原來的決策邊界分別會怎么變化？https://www.zhihu.com/question/30123068
各種機器學習的應用場景分別是什么？例如，k近鄰,貝葉斯，決策樹，svm，邏輯斯蒂回歸和最大熵模型。https://www.zhihu.com/question/26726794
Linear SVM 和 LR 有什么異同？https://www.zhihu.com/question/26768865

LR推導（伯努利過程，極大似然，損失函數(shù)，梯度下降）有沒有最優(yōu)解？
LR可以用核么？可以怎么用？l1和l2正則項是啥？lr加l1還是l2好？加哪個可以用核（加l2正則項，和svm類似，加l2正則項可以用核方便處理）
LR可以用來處理非線性問題么？（還是lr啊只不過是加了核的lr 這里加核是顯式地把特征映射到高維然后再做lr）怎么做？可以像SVM那樣么？為什么？
為什么LR需要歸一化或者取對數(shù)，為什么LR把特征離散化后效果更好，為什么把特征組合之后還能提升，反正這些基本都是增強了特征的表達能力，或者說更容易線性可分吧
美團技術團隊《Logistic Regression 模型簡介》https://tech.meituan.com/intro_to_logistic_regression.html
SVM和logistic回歸分別在什么情況下使用？https://www.zhihu.com/question/21704547
邏輯斯蒂回歸能否解決非線性分類問題？https://www.zhihu.com/question/29385169
為什么LR可以用來做CTR預估？https://www.zhihu.com/question/23652394
邏輯回歸估計參數(shù)時的目標函數(shù) （就是極大似然估計那部分），邏輯回歸估計參數(shù)時的目標函數(shù) （呵呵，第二次）邏輯回歸估計參數(shù)時的目標函數(shù) 如果加上一個先驗的服從高斯分布的假設，會是什么樣（天啦。我不知道，其實就是在后面乘一個東西，取log后就變成加一個東西，實際就變成一個正則項）
邏輯回歸估計參數(shù)時的目標函數(shù)邏輯回歸的值表示概率嗎？（值越大可能性越高，但不能說是概率）
手推邏輯回歸目標函數(shù)，正類是1，反類是-1，這里挖了個小坑，一般都是正例是1，反例是0的，他寫的時候我就注意到這個坑了，然而寫的太快又給忘了，衰，后來他提醒了一下，改了過來，就是極大似然函數(shù)的指數(shù)不一樣，然后說我這里的面試就到這了。
看沒看過scikit-learn源碼LR的實現(xiàn)？（回頭看了一下是調(diào)用的liblinear，囧）
為什么LR需要歸一化或者取對數(shù)，為什么LR把特征離散化后效果更好，為什么把特征組合之后還能提升，反正這些基本都是增強了特征的表達能力，或者說更容易線性可分吧
naive bayes和logistic regression的區(qū)別http://m.blog.csdn.net/blog/muye5/19409615
LR為什么用sigmoid函數(shù)。這個函數(shù)有什么優(yōu)點和缺點？為什么不用其他函數(shù)？sigmoid函數(shù)由那個指數(shù)族分布，加上二項分布導出來的。損失函數(shù)是由最大似然估計求出的。
了解其他的分類模型嗎，問LR缺點，LR怎么推導（當時我真沒準備好，寫不出來）寫LR目標函數(shù)，目標函數(shù)怎么求最優(yōu)解（也不會）講講LR的梯度下降，梯度下降有哪幾種，邏輯函數(shù)是啥

L1和L2

L2正則化，為什么L2正則化可以防止過擬合？L1正則化是啥？
深度學習里面怎么防止過擬合？（data aug；dropout；multi-task learning）如何防止過擬合，我跟他列舉了4中主要防止過擬合方法：Early Stopping、數(shù)據(jù)集擴充、正則化法以及dropout，還詳細跟他說了每種方法原理及使用的場景，并解釋我在哪些項目里具體用到了這些方法，
機器學習中使用「正則化來防止過擬合」到底是一個什么原理？為什么正則化項就可以防止過擬合？https://www.zhihu.com/question/20700829
機器學習中常常提到的正則化到底是什么意思？https://www.zhihu.com/question/20924039
什么是正則項，L1范式，L2范式區(qū)別是什么，各自用在什么地方？L1 與 L2 的區(qū)別以及如何解決 L1 求導困難；
L1正則為什么能讓系數(shù)變?yōu)?？L1正則怎么處理0點不可導的情形？（這個誰會？近端梯度下降）
L0，L1，L2正則化(如果能推導絕對是加分項，一般人最多能畫個等高線，L0是NP問題)其實上面的這些問題基本都能在《李航：統(tǒng)計學習方法》《周志華：機器學習》里面找到，能翻個4，5遍基本就無壓力了
避免過擬合策略、如何提高模型泛化能力、L1與L2正則區(qū)別，優(yōu)缺點、生成式，判別式模型、深度學習這塊了解多少、
如何克服過擬合，欠擬合
L1 與 L2 的區(qū)別以及如何解決 L1 求導困難；
L1正則為什么可以把系數(shù)壓縮成0，坐標下降法的具體實現(xiàn)細節(jié)
為什么L1正則可以實現(xiàn)參數(shù)稀疏，而L2正則不可以？為什么L1很多系數(shù)可以被壓縮為0，L2是被壓縮至接近于0？

樹模型

rf ， gbdt 的區(qū)別；gbdt ， xgboost 的區(qū)別（爛大街的問題最好從底層原理去分析回答）
介紹決策樹，談了3種決策樹及其區(qū)別和適應場景
決策樹處理連續(xù)值的方法；簡單介紹決策樹幾種算法，有什么區(qū)別？
決策樹基本模型介紹？決策樹算法中缺失值怎么處理？決策樹算法在應用中有什么值得注意的地方。SVM、LR、決策樹的對比？GBDT 和決策森林的區(qū)別？決策樹的特性？（3 ）決策樹處理連續(xù)值的方法；
解釋下隨機森林和gbdt的區(qū)別。gbdt的boosting體現(xiàn)在哪里。解釋下隨機森林節(jié)點的分裂策略，以及它和gbdt做分類有什么區(qū)別？哪個效果更好些？為什么？哪個更容易過擬合？為什么？問了隨機森林的損失函數(shù)，和lr的優(yōu)缺點對比， adaboost和隨機森林的比較，為了防止隨機森林過擬合可以怎么做，是否用過隨機森林，怎么用的。
隨機森林和GBDT的區(qū)別？CART（回歸樹用平方誤差最小化準則，分類樹用基尼指數(shù)最小化準則）
GBDT（利用損失函數(shù)的負梯度在當前模型的值作為回歸問題提升樹算法中的殘差的近似值，擬合一個回歸樹）
隨機森林（Bagging CART）
SVM與隨機森林比較
改變隨機森林的訓練樣本數(shù)據(jù)量，是否會影響到隨機森林學習到的模型的復雜度
Logistics與隨機森林比較
GBDT與隨機森林比較隨機森林的學習過程；隨機森林中的每一棵樹是如何學習的；隨機森林學習算法中CART樹的基尼指數(shù)是什么？
RF 與 GBDT 區(qū)別，原理優(yōu)缺點適用場景分析，哪個具備交叉驗證功能等
接著寫一下信息增益的公式。之后就是問機器學習相關算法，說了一下bagging跟boosting，之后問了GBDT（沒做過，只能說說大體思路）。（2 ） rf ， gbdt 的區(qū)別；gbdt ， xgboost 的區(qū)別；
說說xgboost、gbdt區(qū)別、Tree-based Model如何處理連續(xù)型特征。
讓我把一個完整的數(shù)據(jù)挖掘流程講一下，從預處理，特征工程，到模型融合。介紹常用的算法，gbdt和xgboost區(qū)別，具體怎么做預處理，特征工程，模型融合常用方式，融合一定會提升嗎？
gbdt樹根據(jù)什么分裂（瞎扯的梯度近似殘差、梯度下降方向，其實還是信息增益這種東西）
gbdt怎么并發(fā)（特征選擇層面，樹層面不能并發(fā)）
介紹LR、RF、GBDT ，分析它們的優(yōu)缺點，是否寫過它們的分布式代碼
XGB和GBDT區(qū)別與聯(lián)系也會經(jīng)常問到：https://www.zhihu.com/question/41354392/answer/128008021?group_id=773629156532445184
CART（回歸樹用平方誤差最小化準則，分類樹用基尼指數(shù)最小化準則）、Logistics（推導）、GBDT（利用損失函數(shù)的負梯度在當前模型的值作為回歸問題提升樹算法中的殘差的近似值，擬合一個回歸樹）
在面試過程中主動引導面試官提問，比如面試官讓你講解 gbdt 原理時，這會你可以跟他說，一般說起 gbdt ，我們都會跟 rf 以及 xgboost 一塊講，然后你就可以主動地向面試官輸出你的知識；面試并不是死板地你問我答，而是一種溝通交流，所以盡可能地把面試轉(zhuǎn)化成聊天式的對話，多輸出自己一些有價值的觀點而不是僅僅為了回答面試官的問題；
幾種樹模型的原理和對比，
特征選取怎么選？為什么信息增益可以用來選特征？
信息熵和基尼指數(shù)的關系(信息熵在x=1處一階泰勒展開就是基尼指數(shù))
介紹xgboost一下。寫下xgboost目標函數(shù)。（因為我提到xgboost在目標函數(shù)里顯式地加入了正則項..血雪崩）怎么調(diào)整XGB參數(shù)；xgboost原理

K-means

k-means 聚類的原理以及缺點及對應的改進；kmeans 算法的優(yōu)缺點。。。。
kmeans 的原理，優(yōu)缺點以及改進；
em 與 kmeans 的關系；
kmeans 代碼；
說說 Kmeans 算法， Kmeans 算法 K 怎么設置、適用什么樣數(shù)據(jù)集、怎么評價 Kmeans 聚類結果、 Kmeans 有什么優(yōu)缺點？你的項目中使用 Kmeans 遇到哪些問題，怎么解決的 ?
用 EM 算法推導解釋 Kmeans。
KMeans的算法偽代碼
如何判斷自己實現(xiàn)的 LR、Kmeans 算法是否正確？
如何優(yōu)化kmeans算法
如何用hadoop實現(xiàn)k-means
手寫k-means的偽代碼（就6行）

集成學習

bagging和boosting是怎么做的和他們的比較
詳細討論了樣本采樣和bagging的問題
聊的比較多的是如何知道一個特征的重要性，如何做ensemble哪些方法比較好。聊了聊計算廣告方面FM，embedding。
常見融合框架原理，優(yōu)缺點，bagging，stacking，boosting，為什么融合能提升效果
是否了解線性加權、bagging、boosting、cascade等模型融合方式
K-means起始點http://www.cnki.com.cn/Article/CJFDTotal-DNZS200832067.htm

貝葉斯

樸素貝葉斯分類器原理以及公式，出現(xiàn)估計概率值為 0 怎么處理（拉普拉斯平滑），缺點；
解釋貝葉斯公式和樸素貝葉斯分類。
貝葉斯分類，這是一類分類方法，主要代表是樸素貝葉斯，樸素貝葉斯的原理，重點在假設各個屬性類條件獨立。然后能根據(jù)貝葉斯公式具體推導。考察給你一個問題，如何利用樸素貝葉斯分類去分類，比如：給你一個人的特征，判斷是男是女，比如身高，體重，頭發(fā)長度等特征的的數(shù)據(jù)，那么你要能推到這個過程。給出最后的分類器公式。
那你說說貝葉斯怎么分類啊？比如說看看今天天氣怎么樣？我：blabla，，，利用天氣的歷史數(shù)據(jù)，可以知道天氣類型的先驗分布，以及每種類型下特征數(shù)據(jù)（比如天氣數(shù)據(jù)的特征：溫度啊，濕度啊）的條件分布，這樣我們根據(jù)貝葉斯公式就能求得天氣類型的后驗分布了。。。。面試官：en（估計也比較滿意吧）那你了解關于求解模型的優(yōu)化方法嗎？一般用什么優(yōu)化方法來解？
貝葉斯分類器的優(yōu)化和特殊情況的處理

深度學習

解釋一下CNN、介紹CNN、卷積公式，以及特點，假設面試官什么都不懂，詳細解釋 CNN 的原理；問CNN的細節(jié)特點，哪些特點使得CNN這么好用，哪些場景用CNN可以，抽象一下這些場景的特征，可以降采樣但仍能保持主要信息；為什么CNN要用權值共享？（每個卷積核相當于一個特征提取器，它的任務是匹配局部圖像中的特征，權值共享后，匹配的特征方式都是一樣的，提取若干特征后就知道學習的是啥了）
局部連接可以保證獲取局部信息；權值共享保證高效，DNN和CNN相比有哪些區(qū)別，用過RNN么？畫一下RNN的圖，你在深度學習過程中遇到過哪些問題？如果出現(xiàn)過擬合你怎么辦？
dropout是什么？它有什么用？你會怎么用它？當全連接跟dropout連著用需要注意什么？你之前過擬合怎么解決的？如果本身training loss就很大你怎么辦？如果數(shù)據(jù)不變，怎么調(diào)整網(wǎng)絡結構解決這個問題？dropout內(nèi)部是怎么實現(xiàn)只讓部分信號通過并不更新其余部分對于輸入的權值的？
梯度消失知道么？為什么會出現(xiàn)梯度消失？dnn和rnn中的梯度消失原理一樣么？dnn中是哪個部分導致梯度消失？（激活層如sigmoid）rnn中怎么解決梯度消失問題？（lstm的結構相對普通RNN多了加和，為避免梯度消散提供了可能。線性自連接的memory是關鍵。）
給定一個輸入，算輸出的feature map大小。卷積有啥用？池化有啥用？有哪些池化方式？池化除了降采樣還有啥用？還有哪些層你用過？
講講BN（BatchNormalization）為什么好？全連接有什么用處？知道RNN么？講講RNN大致的實現(xiàn)思路。
細講下lstm的結構，這樣設計為什么好？（門關閉，當前信息不需要，只有歷史依賴；門打開，歷史和當前加權平均）
你覺得梯度消失靠引入一些新的激活層可以完全解決么？為什么？
問了做的比賽里面使用tensorflow的細節(jié)，LSTM里調(diào)參的細節(jié)
用過哪些庫或者工具，mkl，cuda這些會用嗎？
有一個弱分類器和大量未被標記過的圖像數(shù)據(jù)，如何人工標記圖像來對分類器進行提升
介紹下RNN和它的優(yōu)缺點
讓我推導BP反向傳播、隨機梯度下降法權重更新公式
卷積神經(jīng)網(wǎng)絡結構特點、各參數(shù)對模型結果影響、項目進展遇到的難題、推導BP神經(jīng)網(wǎng)絡參數(shù)更新方式、隨機梯度下降法（SGD）優(yōu)化函數(shù)存在的缺點以及擬牛頓法在優(yōu)化函數(shù)使用上更有優(yōu)勢、修改Caffe開源框架、開源社區(qū)代碼貢獻量、行業(yè)發(fā)展趨勢及問題，知道目前深度學習的一個趨勢，也了解到最新行業(yè)發(fā)展動態(tài)，改進相機智能化程度，也聊到了美顏相機美顏效果以及小米相機人臉分類、年齡檢測等等不足之處，了解到新興行業(yè)大佬商湯科技和曠視科技（face 臉草）在研究的熱門方向
如何減少參數(shù)（權值共享、VGG的感受野、GoogLeNet的inception ），激活函數(shù)的選擇（sigmoid->ReLu->LReLU->PReLU ），為什么之前沒有深度網(wǎng)絡出現(xiàn)（數(shù)據(jù)量不夠機器性能），由數(shù)據(jù)引申到數(shù)據(jù)不平衡怎么處理（10W正例，1W負例，牛客上有原題），
DNN原理，應用……
圖像處理題：如何找相似圖片。我說用感知哈希算法，計算漢明距離，他說這種方法精度不行；我說那就用SIFT算法吧，他說SIFT效果還可以，但計算有點繁重，有沒有輕量級的方法？我想起來去年在美圖秀秀實習時，曾經(jīng)做過一種圖像濾波算法，有一步是把像素點用K-means聚類。我就說先把圖片灰度化，然后用K-means聚類，把聚類后的各個中心點作為一張圖片的特征向量如果兩張圖片的特征向量相近則說明這兩張圖片相似。貌似我這個答案有點出乎他的意料，他意味深長地說了個“行吧~~~~”（個人覺得顏色直方圖匹配是個他期待的常規(guī)回答）
介紹卷積神經(jīng)網(wǎng)絡，和 DBN 有什么區(qū)別？
Deep CNN, Deep RNN, RBM的典型應用與局限，看Hinton講義和Paper去吧
神經(jīng)網(wǎng)絡,plsi的推導
驗證碼圖片的去噪和提取字符
有限狀態(tài)自動機,然后要我畫狀態(tài)轉(zhuǎn)移圖.

聚類

用過哪些聚類算法，解釋密度聚類算法。
聚類算法中的距離度量有哪些？

優(yōu)化

梯度下降的優(yōu)缺點；主要問最優(yōu)化方面的知識，梯度下降法的原理以及各個變種（批量梯度下降，隨機梯度下降法， mini 梯度下降法），以及這幾個方法會不會有局部最優(yōu)問題，牛頓法原理和適用場景，有什么缺點，如何改進（擬牛頓法）
常用優(yōu)化算法：1.梯度下降法：又有隨機梯度下降和負梯度下降，2.牛頓法主要是問了各自的優(yōu)缺點，速度，能不能得到全局最優(yōu)解，牛頓法的二次收斂等
問你如果有若干個極小值點，如何避免陷入局部最優(yōu)解。
它們間的牛頓學習法、SGD如何訓練，
如何判斷函數(shù)凸或非凸？
線性回歸的梯度下降和牛頓法求解公式的推導
最速下降法和共軛梯度法 wolfe條件最速下降法和共軛梯度法的收斂速度如何判斷
深刻理解常用的優(yōu)化方法：梯度下降、牛頓法、各種隨機搜索算法（基因、蟻群等等），深刻理解的意思是你要知道梯度下降是用平面來逼近局部，牛頓法是用曲面逼近局部等等。

推薦系統(tǒng)

介紹SVD、SVD
推薦系統(tǒng)的冷啟動問題如何解決
深度學習在推薦系統(tǒng)上可能有怎樣的發(fā)揮？
推薦系統(tǒng)的算法中最近鄰和矩陣分解各自適用場景
白板寫SVD/SVD 公式，SGD迭代更新p，q矩陣公式，SVD/SVD 優(yōu)化方法
對推薦算法的未來看法；
用過什么算法？最好是在項目/實習的大數(shù)據(jù)場景里用過，比如推薦里用過 CF、LR，
我面的推薦，問了各類協(xié)同過濾的好與壞。
問了一個很有意思的問題，現(xiàn)實應用中的Top-N推薦問題和學術研究中的評分預測問題之間有什么不同。問我ItemCF的工程實現(xiàn)，面對大數(shù)據(jù)如何實現(xiàn)，又追問了有沒有什么工程優(yōu)化算法。這個問題我沒答好，一開始我說了一個MapReduce模型，他問能不能更快一點，我就卡那了。。。最后面試官告訴我，不能只從算法角度分析，要從系統(tǒng)設計分析，利用內(nèi)存來減小MapReduce的吞吐量。（當然也許從MapReduce那一刻開始我就輸了也不一定）
推薦系統(tǒng)的算法中最近鄰和矩陣分解各自適用場景http://www.doc88.com/p-3961053026557.html

那你對pca了解嗎？我：了解啊，面試官：那講一下pca是用***嘛的？我：pca啊，可以用來分析主方向啊，降維啊，特征篩選啊，具體方法是用svd分解得到特征值矩陣和特征向量矩陣，然后根據(jù)不同的任務對選擇特征值或向量進行計算。

采用 EM 算法求解的模型有哪些，為什么不用牛頓法或梯度下降法？

用過哪些 NLP 算法項目中用過哪些機器學習算法。
海量的 item 算文本相似度的優(yōu)化方法；
解釋 word2vec 的原理以及哈夫曼樹的改進；word2vec的原理
二面面試官主要跟我聊簡歷上的幾個項目，他好像不能理解詞向量的形式，反復解釋了很多遍，問的問題都比較簡單，有TF-IDF,余弦相似度，分詞工具等等。
然后我說我做過LDA，問我，Dirichlet Distribution的定義和性質(zhì)，并問我，為什么它和multinomial distribution是共軛的，順便問了我啥叫共軛分布。

關聯(lián)分析：

項目中涉及到頻繁模式挖掘，于是問了一下如何實現(xiàn)的？用的是 Apriori算法，描述他的原理過程，關鍵字眼：支持度，支持度計數(shù)，k項候選頻繁項集，怎么從k項到k 1項等，連接剪枝過程。

hadoop

簡單介紹 MapReduce 原理，有沒有看過源碼，說說 Map 階段怎么實現(xiàn)的,
MapReduce 實現(xiàn)統(tǒng)計出現(xiàn)次數(shù)最多的前 100 個訪問 IP.
MapReduce 實現(xiàn)統(tǒng)計不重復用戶 ID,MapReduce 實現(xiàn)兩個數(shù)據(jù)集求交集。
HBase 行健怎么設計,spark 性能一般優(yōu)化方法,spark streaming 和 storm 區(qū)別.給了一張筆試題， 10 道選擇，一道大題。選擇題是 java 基礎知識，大題一個有三問：根據(jù)場景寫出 Hive 建表語句；Hsql 從表中查詢；
用MapReduce寫好友推薦，在一堆單詞里面找出現(xiàn)次數(shù)最多的k個
用分布式的方法做采樣怎么保證采樣結果完全符合預期？
后面又問了Hadoop,Spark,storm下面的產(chǎn)品，原理，適用場景，
寫一個 Hadoop 版本的 wordcount。

實現(xiàn) hmm 的狀態(tài)轉(zhuǎn)移代碼；

機器學習理論

講機器學習中常用的損失函數(shù)有哪些？交叉熵有什么好處？（凸優(yōu)化問題）
判別模型與生成模型的本質(zhì)區(qū)別是什么
分類模型和回歸模型的區(qū)別，分類模型可以做回歸分析嗎？反過來可以嗎？（我回答是分類不可以做回歸，回歸倒是可以做分類，不知道對不對）
k折交叉驗證中k取值多少有什么關系（我不知道，隨便答，然后面試官后面問我知道bias和variance嗎？估計是和這兩個東西有關，知乎上有個問題討論了k值大小與bias和variance的關系）
解釋局部相關性
特征選擇的方法；
在模型的訓練迭代中，怎么評估效果；
特征選擇方法有哪些(能說出來10種以上加分)，之后和面試官仔細聊了一下特征選擇的問題，我介紹了了解的幾種基本的特征選擇思路（錯誤率選擇、基于熵的選擇、類內(nèi)類間距離的選擇）；
有沒有接觸過機器學習的前沿，深度學習看過paper沒有？（并沒有）
如何用盡可能少的樣本訓練模型同時又保證模型的性能；
你讀哪些期刊會議的論文？你遇到的比較有意思的算法？
生成模型，判別模型
線性分類和非線性分類各有哪些模型
比較各個模型的Loss function，
設計一個結構存取稀疏矩陣（面試官最后告訴我了一個極度壓縮的存法，相同行或列存偏差，我當時沒聽懂，還不懂裝懂，最后還是沒記住）
PageRank原理，怎么用模型來查找異常用戶，我講了一大堆我的理解，然后面試官一句你怎么不用規(guī)則把我噎到了……
無監(jiān)督和有監(jiān)督算法的區(qū)別？
經(jīng)典算法推導(加分項)，原理，各個損失函數(shù)之間區(qū)別，使用場景，如何并行化，有哪些關鍵參數(shù)
什么叫判別模型什么叫生成模型。
先針對項目十分細致地詢問了各種細節(jié)，然后就問我如何處理數(shù)據(jù)中的噪聲點、數(shù)據(jù)清洗算法（正好自己做了一個算法）、如何選擇特征等。
校招TST內(nèi)推，面過了2面，還是跟之前那個有點類似的游戲開發(fā)的安全部門，因為我也玩LOL，又問到怎么來判斷玩家有沒有作弊之類的問題，這次我小心翼翼的說用模型怎么做，用規(guī)則怎么做，感覺這次聊的都挺開心的。
是否了解A/B Test以及A/B Test結果的置信度特征工程經(jīng)驗是否了解mutual infomation、chi-square、LR前后向、樹模型等特征選擇方式
深刻理解各種算法對應采用的數(shù)據(jù)結構和對應的搜索方法。比如KNN對應的KD樹、如何給圖結構設計數(shù)據(jù)結構？如何將算法map-red化
矩陣的各種變換，尤其是特征值相關的知識。分布式的矩陣向量乘的算法
線性分類器與非線性分類器的區(qū)別及優(yōu)劣；特征比數(shù)據(jù)量還大時，選擇什么樣的分類器？對于維度很高的特征，你是選擇線性還是非線性分類器？對于維度極低的特征，你是選擇線性還是非線性分類器？如何解決過擬合問題？L1和L2正則的區(qū)別，如何選擇L1和L2正則？
項目中的數(shù)據(jù)是否會歸一化處理，哪個機器學習算法不需要歸一化處理
并行計算、壓縮算法LDA http://www.doc88.com/p-1621945750499.html

場景題

1. 百度IDL：無給定條件，預測蔬菜價格。提幾個特征做預測模型：肉的價格、土壤健康指標、天氣情況、國民收入、貨幣匯率等等。。

2. 網(wǎng)易游戲互娛：給三天時間，獲取全世界有多少人玩過德州撲克，只要玩過就算。直接爬蟲德州撲克的app。（感覺這個答的好蠢。。）

3. . 騰訊MIG：獲取聊天表情的標簽，比如喜怒哀樂。對騰訊系產(chǎn)品的聊天記錄中，表情的上下文聊天文字做情感分析，然后給表情貼標簽。

4. 騰訊廣點通：給定某人的騰訊系產(chǎn)品信息，判斷此人是否有車。我說先做一部分數(shù)據(jù)標注來判斷一部分人是否已經(jīng)有車，然后提一些消費水平的特征做預測模型

5. 我回答地都很不好，一直覺得場景題不知道怎么回答，直到廣點通的面試官很nice地指出了我的問題：我的方法成本高而且過于模糊，要求的是低成本、直接、精度高的方法，也就是人工規(guī)則。

6. 類似大眾點評的網(wǎng)站有正常用戶訪問流量，也有同類競爭商家的ｓｐｉｄｅｒ，怎樣區(qū)分ｓｐｉｄｅｒ和正常訪問，我想了下，他說簡單說說就行，我就從兩者的訪問特點分析了一下，對于這個二分類問題選用哪些特征，然后他希望再從ｈｔｔｐ的角度分析一下，然而并不懂，然后照例問有什么問題，然后詳細介紹了一下上海這邊主要負責滴滴租車業(yè)務，業(yè)務框架，說的很仔細，

7. 拼車軟件是如何定價的以及如何優(yōu)化；

8. 怎么預測降雨量；

9. 預測平臺每日外賣或到店客流量時，節(jié)假日往往會被作為噪音處理，但是美團點評算法團隊需要給店家提供節(jié)假日的客流量預測，如何去預測這個異常值或者說噪音。

10. 遇到極端情況比如天氣或者其他因素，平臺內(nèi)會擠壓大量訂單等待處理，同時客戶等待時間會變長，如何設計調(diào)度系統(tǒng)使用算法去協(xié)調(diào)運力或者控制溢價，在不影響用戶體驗的同時盡快處理擠壓訂單盡可能縮短外賣小哥的ETA。

11. 目前對于客流量預測精度為天很準確，如何設計online learning的model去對未來某一個特定時間點進行客流量預估。自己感覺這應該都是美團點評在真是業(yè)務場景中遇到的問題，自己也根據(jù)自己的想法與面試官做了討論，突然在說的一瞬間覺得這才是machine learning在工業(yè)界真實運用的場景，突然覺得自己天天看的書推的公式好渺小...

12. 開放問題：在車和乘客的匹配場景中（一個車匹配一個乘客，不考慮拼車），如何讓司機的接單率更高？

14. 給你公司內(nèi)部群組的聊天記錄，怎樣區(qū)分出主管和員工？如何評估網(wǎng)站內(nèi)容的真實性（針對代刷、作弊類）？路段平均車速反映了路況，在道路上布控采集車輛速度，如何對路況做出合理估計？采集數(shù)據(jù)中的異常值如何處理？如何根據(jù)語料計算兩個詞詞義的相似度？在百度貼吧里發(fā)布 APP 廣告，問推薦策略？100億數(shù)字，怎么統(tǒng)計前100大的？

15. 問了一個預估的題目，讓你估計早餐市場的規(guī)模。

16. 系統(tǒng)設計題，給一個query，如何快速從10億個query中找出和它最相似的（面試官說可以對每個query找1000個最相似的，存起來，每天離線更新）

17. 設計一個合理的電梯調(diào)度策略，調(diào)度兩個電梯，考慮滿足基本的接送需求，滿足能耗最小，滿足用戶等待時間最短（難到我了，我想的方法不好，面試告訴我了他的想法，類似于一個進程調(diào)度問題，每一時刻只可能有一個用戶按按鈕，把這條指令接收，判斷當前電梯能否滿足，能滿足就執(zhí)行，不能滿足則放入一個隊列里，實際情況還要細化）

18. 在互聯(lián)網(wǎng)分析中，通常會關注用戶的【第N日激活率】來衡量用戶質(zhì)量。用戶的第N日激活指的是用戶在注冊的第N天登錄網(wǎng)站或App，即算為該用戶的第N日激活。第N日激活率指的是某日注冊用戶在第N天激活的數(shù)量除以該日所有注冊用戶數(shù)量。

19. “赤兔”是領英中國針對中國職場人士推出的一款本土化的社交應用。如果你是領英中國的數(shù)據(jù)分析師，你會從哪些方面和維度來設計各項指標，給產(chǎn)品的設計和運營提供數(shù)據(jù)上的支持?請給出具體的維度和指標，并說明原因。

20. 比如你現(xiàn)在知道了一個用戶訪問網(wǎng)站的歷史記錄，比如時間，流量，高峰期或沒有訪問之類的數(shù)據(jù)，讓你來分析一下這個用戶。我：這個中間和面試官探討了半天，沒有回答好。。

21. 做廣告點擊率預測，用哪些數(shù)據(jù)什么算法

22. 用戶流失率預測怎么做（游戲公司的數(shù)據(jù)挖掘都喜歡問這個）

23. 一個游戲的設計過程中該收集什么數(shù)據(jù)

24. 如何從登陸日志中挖掘盡可能多的信息

25. 如何做一個新聞推薦

26. 開放性問題：每個實體有不同屬性，現(xiàn)在有很多實體的各種屬性數(shù)據(jù)，如何判斷兩個實體是否是同一種東西

27. 如何從登陸日志中挖掘盡可能多的信息http://www.docin.com/p-118297971.html

27. 用戶流失率預測怎么做（游戲公司的數(shù)據(jù)挖掘都喜歡問這個）http://www.docin.com/p-1204742211.html

87. 一個游戲的設計過程中該收集什么數(shù)據(jù)

88. 做廣告點擊率預測，用哪些數(shù)據(jù)什么算法http://bbs.pinggu.org/thread-3182029-1-1.html

89. 場景題一般是面試官工作中遇到的問題，問題一般會比較細，比如說獲取某些item的屬性標簽。

90. 如果問題里沒有明確出現(xiàn)“預測”等字眼，最好不要用模型角度去回答問題。因為實際工作中，可能不會為了某個小問題，去動用集群來跑模型，這些小問題可能是用來給跑集群的模型加特征的，應該優(yōu)先以人工規(guī)則來解決。

91. 人工規(guī)則可能有隱藏先驗條件，就是可以用到這個公司其他產(chǎn)品數(shù)據(jù)。

87. 解決方案類題目為今日頭條設計一個熱門評論系統(tǒng)，支持實時更新給定淘寶上同類目同價格范圍的兩個商品A和B，如何利用淘寶已有的用戶、商品數(shù)據(jù)、搜索數(shù)據(jù)、評論數(shù)據(jù)、用戶行為數(shù)據(jù)等所有能拿到的數(shù)據(jù)進行建模，判斷A和B統(tǒng)計平均性價比高低。統(tǒng)計平均性價比的衡量標準是大量曝光，購買者多則高。有n個elements和1個Compare(A, B)函數(shù)，用Compare函數(shù)作為排序算法中的比較算子給elements排序。Compare函數(shù)有p的可能比較錯。排序完取Top m個元素，本來就在Top m并被正確分在Top m的元素個數(shù)是x。問x的數(shù)學期望。如何預測雙十一支付寶的負載峰值。

88. 給你1000w篇文檔或html，如何判斷是否為體育類的新聞，需要給出系統(tǒng)的方法；答：分詞＋人工判定＋詞庫＋SVM訓練。

89. 設計一個系統(tǒng)可以實時統(tǒng)計任意 ip 在過去一個小時的訪問量；

來源｜狗皮膏藥@知乎

本文僅作學術分享，著作權歸作者所有，如有侵權，請聯(lián)系后臺作刪文處理。

TAGS標簽：機器學習算法工程師要求

歡迎分享轉(zhuǎn)載→http://www.avcorse.com/read-29891.html

上一篇：漯河職業(yè)學院主題教育總結（主題教育教育集錦）

下一篇：紅娘是哪一部作品中的人物