當前位置:首頁>職場>數據分析面試失敗點(數據科學面試問題和答案總結)
發布時間:2024-01-24閱讀(9)
來自Amazon,谷歌,Meta, Microsoft等的面試問題,問題很多所以對問題進行了分類整理,本文包含基礎知識和數據分析相關問題

1、什么是數據科學?列出監督學習和非監督學習的區別。
數據科學是各種工具、算法和機器學習方法的混合,其目標是從原始數據中發現隱藏的模式。這與統計學家多年來一直在做的事情相似但是有什么不同?下圖解釋了數據分析和數據科學的區別:

監督學習和無監督學習的區別如下:
有監督學習:輸入數據是有標記的,主要用于預測。例如分類和回歸等
無監督學習:輸入數據是沒有標記的,多用于分析。密度估計和降維等
2、什么是選擇偏差?
選擇性偏差溯源英文為Selection Bias,指的是在研究過程中因樣本選擇的非隨機性而導致得到的結論存在偏差,也稱選擇性偏差為選擇性效應(Selection Effect)。它是由于采集樣本的方法造成的統計分析的失真。如果沒有考慮到選擇偏差,那么研究的一些結論可能不準確。
選擇性偏差是指這樣一種認知傾向:人們喜歡把事物分為典型的幾個類別,然后在對事件進行概率估計時,過分強調這種典型類別的重要性,而不顧有關其他潛在可能性的證據。選擇性偏差的后果勢必使人們傾向于在實際上是隨機的數據序列中“洞察”到某種模式,從而造成系統性的預測偏差。
3、什么是偏差-方差權衡?
偏差:偏差是由于機器學習算法過于簡化而在模型中引入的錯誤。它會導致不適應。當你在那個時候訓練你的模型時,模型會簡化假設,使目標函數更容易理解。
低偏差機器學習算法有:決策樹,k-NN和SVM,高偏差機器學習算法有:線性回歸,邏輯回歸
方差:方差是由于復雜的機器學習算法在模型中引入的誤差,模型會從訓練數據集學習噪聲,在測試數據集上表現很差。它會導致高靈敏度和過擬合。
通常,當增加模型的復雜性時,會看到由于模型中較低的偏差而導致的誤差的減少。然而,這種情況只會在特定的點發生。當模型變得更復雜時,最終會過度擬合型,因此你的模型將開始變為i高方差。

任何監督機器學習算法的目標都是具有低偏差和低方差,才能達到良好的預測性能。在機器學習中,偏見和方差之間的關系不可避免。增加偏差會減少方差。增加方差會減少偏差。
4、任意語言,編寫一個程序輸出從1到50的數字
打印1到50之間的數字的python代碼如下-
for i in range(1,51):print(i)
5、什么是混淆矩陣?
混淆矩陣是一個2X2表,包含由二分類器提供的4個輸出。錯誤率、準確率、精確度、查全(召回)率等指標都由它來衡量。混淆矩陣

用于性能評估的數據集稱為測試數據集。它應該包含正確的標簽和預測的標簽。

如果分類器的性能是完美的,預測的標簽將完全相同。

但實際上模型預測的標簽通常與現實場景中部分觀察到的標簽相匹配。

分類器預測測試數據集的所有數據實例為正或負。這產生了四種結果
真陽性(TP) -正確的陽性預測
假陽性(FP) -不正確的陽性預測
真負(TN) -正確的負預測
假陰性(FN) -錯誤的陰性預測

由混淆矩陣推導出的基本度量有以下概念
錯誤率= (FP FN)/(P N)
精度= (TP TN) / (P N)
敏感度(Sensitivity真陽性率)= TP/P
特異度(Specificity真陰性率)= TN/N
精度(陽性預測值)= TP/(TP FP)
F-Score(精度和查全率的調和平均值)= (1 b)(PREC.REC)/(b2PREC REC)其中b通常為0.5,1,2。
6、怎么理解真陽性率和假陽性率?
真陽性率(TPR)是真陽性與真陽性和假陰性的比率。它是實際陽性結果被測試為陽性的概率。
TPR = TP / (TP FN)
假陽性率(FPR)是假陽性與所有陽性(真陽性和假陽性)的比率。它是虛驚一場的概率,也就是說,當它實際上是負的時候,會給出一個正的結果。
FPR= FP / (TP FP)
7、簡述馬爾可夫鏈
馬爾可夫鏈是一種隨機過程。在馬爾可夫鏈中,任何狀態的未來概率只取決于當前狀態。

上圖表示了一個馬爾可夫鏈模型,其中每個步驟都有一個輸出,只依賴于當前狀態。
例如文字推薦。當我們輸入一個段落時,這個模型會提示下一個單詞,它只依賴于前一個單詞,而不依賴于它之前的任何單詞。馬爾科夫鏈模型之前在一個類似的段落上進行訓練,其中給定單詞的下一個單詞存儲在訓練數據中的所有單詞上。根據這個訓練數據輸出,建議接下來的單詞。
8、ROC曲線是什么?
ROC曲線是假陽性率(x軸)和真陽性率(y軸)之間的曲線。真陽性率是指真陽性率與陽性樣本總數之比。假陽性率是假陽性與陰性樣本總數之比。在幾個閾值上繪制FPR和TPR,構建ROC曲線。ROC曲線下的面積范圍為0 ~ 1。完全隨機模型的ROC為0.5,用直線表示。ROC曲線偏離這條直線越多,模型越好。ROC曲線用于二元分類。下圖展示了ROC曲線的一個例子。

9、什么是降維及其好處?
減少給定數據集的特征數量被稱為降維。有許多技術用于降低維度,如-
降維的主要原因之一是“降維魔咒”。當特征的數量增加時,模型變得更加復雜。但如果數據點較少,模型將開始學習過擬合數據。模型不會泛化。這就是眾所周知的“維度詛咒”。
降低維度的其他好處包括-
10、如何在線性回歸模型中找到RMSE和MSE ?
采用均方根誤差(RMSE)來檢驗線性回歸模型的性能。它評估在最佳擬合線上分布了多少數據。它的公式是

f_i是預測值
Y_i是輸出變量的實際值。
N是數據點的個數
均方誤差(MSE)表示直線與實際數據的接近程度。取直線與數據點的差值并平方。對于一個好的模型,MSE值應該很低。這意味著實際輸出值和預測輸出值之間的誤差應該很低。
11、如何處理不平衡的二元分類?
在進行二分類時,如果數據集不平衡,僅使用R2評分無法正確預測模型的精度。例如,如果屬于其中一個類的數據在數量上比屬于另一個類的數據少得多,那么傳統的精度將在較小的類中占很小的百分比。如果只有5%的示例屬于較小的類,而模型將屬于其他類的所有輸出分類,精度仍然在95%左右。但這是錯誤的。為了解決這個問題,我們可以這樣做
12、箱線圖和直方圖的區別是什么
直方圖和箱線圖都用于直觀地表示某一特征值的頻率。下圖顯示了一個直方圖。

下圖為箱線圖現實的相同數據

直方圖用于了解數據的潛在概率分布。箱線圖更多地用于比較多個數據集。箱線圖比直方圖有更少的細節和占用更少的空間。
13、NLP都有什么主要的工作?
NLP代表自然語言處理。它是對計算機編程來學習大量文本數據的研究。NLP的例子包括標記化、停止詞去除、詞根提取、情感分析等。
14、概率論的基本原理
在所有可能的結果中,某一事件發生的可能性被稱為其概率。事件發生的概率總是在(包括)0和1之間。

加法規則:P(A或B)= P(A) P(B) - P(A和B)
條件概率:它是事件B發生的概率,假設事件A已經發生。
P(A and B)= P(A)。P (B |)
中心極限定理:當我們從一個大總體中抽取隨機樣本,然后取這些樣本的均值,它們形成一個正態分布。
15、描述不同的正則化方法,如L1和L2正則化
有3種重要的正則化方法如下-
L2正則化-(Ridge回歸)-在L2正則化中,我們將所有權重的平方和,乘以一個值lambda,加到損失函數。Ridge回歸公式為-

可以看到,如果某一特定數據點和特征的權值乘以數據值變得非常大,那么原始的損失就會變得很小。但是增加值乘以權重平方和也會變大。同樣如果原來的損失價值變得很大,那么增加的價值就會變小。因此它將控制最終值不變得太大或太小。
L1正則化-(Lasso回歸)-在L1正則化中,我們將所有權重的絕對值加和,乘以一個值lambda,到損失函數。Lasso回歸公式為-

損失函數和優化算法使參數趨近于零而不是實際為零,而lasso則消除了不太重要的特征,并將各自的權重值設置為零。
Dropout用于神經網絡的正則化。全連接層更容易過擬合。Dropout丟掉了神經網絡中一些概率為1-p的神經元。Dropout減少了過擬合,提高了訓練速度,使模型更健壯。
16、應該如何維護已部署的模型?
在一個模型被部署之后,它輸入的數據可能會隨時間而改變。例如,在預測房價的模型中,房價可能會隨著時間的推移而上漲,也可能會因為其他一些因素而波動。所以模型在新數據上的準確性可以被記錄下來。一些確保準確性的常用方法包括-
17、寫出公式,計算準確率和召回率。
Precision = True Positives / (True Positives False Positives)
Recall = True Positives / (True Positives False Negatives)
18、如何在numpy中測量兩個數組之間的歐氏距離?
2個陣列A[1,2,3,]和b[8,9,10]之間的歐氏距離可以通過分別取每個點的歐氏距離來計算。使用numpy. linalgy .norm()-

19、誤差和剩余誤差的區別是什么?
誤差是指預測值與實際值之間的差值。數據科學中最常用的誤差計算方法是平均絕對誤差(MAE)、均方誤差(MSE)和均方根誤差(RMSE)。而剩余誤差是一組觀測值與其算術平均值之間的差。誤差通常是不可觀察的,而剩余誤差可以在圖上顯示出來。誤差表示觀測數據與實際總體的差異。而剩余誤差則表示觀察數據與樣本總體數據的差異。
20、歸一化和標準化的區別?
歸一化,也稱為最小-最大縮放,是一種將所有數據值轉換為介于0和1之間的技術。
歸一化公式是-

X_max是該特性的最大值
X_min是該特征的最小值
標準化是指將我們的數據進行轉換,使其具有均值為0,標準差為1的正態分布。
標準化的公式是-

因此,雖然標準化只將數據縮放到0到1的范圍,但標準化確保數據遵循標準的正態分布。
21、你對正態分布有什么理解?
數據通常以不同的方式分布,有向左或向右的偏差,也可能全部混雜在一起。
然而,也有可能數據分布在中心值周圍,沒有任何向左或向右的偏差,并以鐘形曲線的形式達到正態分布。

正態分布的性質如下;
單峰,左右鏡像對稱,鐘形-最大高度(模式)在平均值,均值、眾數和中位數都位于中心
22、什么是統計學上的相關性和協方差?
協方差和相關是兩個數學概念;這兩種方法在統計學中被廣泛使用。相關和協方差都建立了關系,也衡量兩個隨機變量之間的依賴性。雖然從數學的角度來說,這兩者的工作是相似的,但他們彼此不同。

相關性:相關被認為或描述為測量和估計兩個變量之間的定量關系的最佳技術。相關性衡量的是兩個變量的相關性有多強。
協方差:在協方差中,兩個項目一起變化,它是一個衡量兩個隨機變量在周期變化的程度。這是一個統計術語;它解釋了一對隨機變量之間的系統關系,其中一個變量的變化與另一個變量的相應變化互為倒數。
23、點估計和置信區間的區別是什么?
點估計給我們一個特定的值作為總體參數的估計。采用矩量法和極大似然估計法導出了總體參數的點估計。
置信區間為我們提供了一個可能包含總體參數的值范圍。通常首選置信區間,因為它告訴我們這個區間包含總體參數的可能性有多大。這種可能性或概率稱為置信水平或置信系數,用1 - alpha表示,其中alpha是顯著性水平。
24、A/B測試的目標是什么?
這是對一個有兩個變量a和B的隨機實驗的假設檢驗。
A/B測試的目標是識別變化,以最大限度地找到改變實驗動作后對結果產生的影響。
25、P值是什么?
當在統計學中進行假設檢驗時,p值可以幫助您確定結果的強度。p值是0到1之間的一個數字。它將根據值表示結果的強度。這個正在試驗的主張被稱為零假設。
較低的p值(≤0.05)意味著我們可以拒絕原假設。高p值(≥0.05)這意味著可以接受零假設,p值為0.05表明假設可以雙向。
26,概率計算:在任何15分鐘的間隔內,有20%的概率你會看到至少一顆流星。你在一小時內看到至少一顆流星的概率是多少?
十五分鐘內看不到流星的概率是
= 1 - P(看到一顆流星)= 1-0.2 = 0.8
在一小時內看不到任何流星的概率
= (0.8) ^ 4 = 0.4096
在一小時內看到至少一顆流星的概率
= 1 - P(看不到任何流星)= 1-0.4096 = 0.5904
27、如何用一個骰子產生1-7之間的隨機數?
任何骰子有從1到6有6個面。一次擲骰子不可能得到7個相同的結果。如果我們擲骰子兩次,考慮兩次的事件,我們現在有36種不同的結果。為了得到7個相等的結果我們要把36化簡成能被7整除的數。因此可以只考慮35種結果,并排除其中的一種。
一個簡單的場景便是排除組合(6,6),即如果6出現兩次便再次擲骰子。從(1,1)到(6,5)的所有剩余組合可以分為7個部分,每個部分5。這樣七組結果都是等可能的。
28、一對夫婦告訴你他們有兩個孩子,其中至少有一個是女孩。他們有兩個女孩的概率是多少?
在兩個孩子的情況下,有4種等可能的事件
BB、BG、GB、GG;
其中B =男孩,G =女孩,第一個字母表示第一個孩子。
從問題中,我們可以排除第一種BB。因此,從BG, GB, BB剩下的3種可能性中,我們必須找出兩個女孩的情況的概率。
因此,P(有兩個女孩給一個女孩)= 1 / 3
29、一個罐子有1000枚硬幣,其中999枚是正常的,1枚的兩面都是正面。隨機選擇一枚硬幣,投擲10次。假設你看到10個正面,那枚硬幣下一次扔出來也是正面的概率是多少?
選擇硬幣有兩種方法。一種是選出一枚正常的硬幣,另一種是選出兩個正面的硬幣。
選擇正常硬幣的概率= 999/1000 = 0.999
選擇非正常硬幣的概率= 1/1000 = 0.001
連續選擇10個正面=選擇正常硬幣*得到10個正常 選擇一枚非正常硬幣
P (A) = 0.999 *(1/2)?= 0.999 * (1/1024)= 0.000976
P (b) = 0.001 * 1 = 0.001
P(a / a b) = 0.000976 / (0.000976 0.001) = 0.4939
P(b / a b) = 0.001 / 0.001976 = 0.5061
選擇另一個正面的概率= P(A/A B) * 0.5 P(B/A B) * 1 = 0.4939 * 0.5 0.5061 = 0.7531
30、你對敏感度(Sensitivity)的統計能力有什么理解?你如何計算它?
敏感度通常被用來驗證分類器的準確性(Logistic, SVM, Random Forest等)。
敏感度是“預測的真實事件/總事件”。真實事件是指真實的事件模型也預測了它們是真實的。
計算非常簡單。敏感度(Sensitivity真陽性率)= TP/P
31、為什么要重采樣?
32、過擬合和欠擬合有什么區別?
在統計學和機器學習中,最常見的任務之一就是將模型擬合到一組訓練數據中,從而能夠對一般的未經訓練的數據做出可靠的預測。

在過擬合中,統計模型描述的是隨機誤差或噪聲,而不是潛在的關系。過擬合發生在一個模型過于復雜的時候,比如相對于觀測數據有太多的參數。過擬合的模型預測性能較差,因為它對訓練數據的微小波動反應過度。
當統計模型或機器學習算法無法捕捉數據的潛在趨勢時,就會發生欠擬合。例如,當用線性模型擬合非線性數據時,就會出現欠擬合。這種模型的預測性能也很差。
33、避免對抗過擬合和過擬合?
為了避免過擬合和欠擬合,可以重采樣數據來估計模型的準確性(k倍交叉驗證),并通過驗證數據集來評估模型。
34、什么是正則化?為什么它有用?
正則化可以防止過擬合。一般情況下是通過在現有的權重向量上加上一個常數倍數來實現的。這個常數通常是L1(Lasso)或L2(ridge)。然后模型預測應該最小化在正則化訓練集上計算的損失函數。
35、什么是大數定律?
這個定理,描述了進行大量相同實驗的結果。這個定理構成了頻率式思維的基礎:樣本均值,樣本方差和樣本標準差收斂于他們試圖估計的值。
36、什么是混淆的變量?
在統計數據中,混淆因素是一個影響因變量和獨立變量的變量。混淆變量(Confounding Variable)是指與自變量和因變量均相關的變量,該變量使自變量和因變量間產生虛假的關系(Meinert, 1986)。
例如,如果您正在研究缺乏運動會導致體重增加,
缺乏運動=自變量
體重增加=分支變量。
這里的混淆變量將是影響這兩個變量的任何變量例如受試者的年齡。
37、抽樣過程中可能發生的偏差都有哪些類型?
38、什么是生存偏差(Survivorship bias)?
這是一個邏輯上的錯誤,即專注于支持幸存某些過程的方面,而忽略那些因為它們不突出而不起作用的方面。這可能會以各種不同的方式得出錯誤的結論。
39、什么是選擇偏差(Selection bias)?
當獲得的樣本不能代表要分析的總體時,就會出現選擇偏差。
40、解釋ROC曲線是如何工作的?
ROC曲線是各種閾值下真實陽性率和假陽性率對比的圖形表示。它經常被用作敏感性(真陽性率)和假陽性率之間權衡的標準。

41、什么是TF/IDF?
TF-IDF是 term frequency-inverse document frequency,的縮寫,是反映一個詞對集合或語料庫中的文檔的重要性的統計數字。在信息檢索和文本挖掘中,它經常被用作加權因子。
TF-IDF值與單詞在文檔中出現的次數成比例增加,但會被單詞在語料庫中的出現頻率所抵消,這有助于調整某些單詞在一般情況下出現的頻率更高的事實。
42、為什么我們一般使用Softmax非線性函數作為網絡最后一個操作?
這是因為它采用了實數的向量并返回概率分布。 它的定義如下。 令X為實數的向量(正,負,無論如何,沒有約束)。
則Softmax(x)的第i個分量為-

輸出是概率分布:每個元素都是非負分布,所有分量的總和為1。
數據分析43、數據清理如何在分析中發揮重要作用?
數據清理可以幫助分析,因為:
44、單變量、雙變量和多變量分析。
單變量分析是一種描述性統計分析技術,可以根據在給定的時間點所涉及的變量的數量進行區分。例如,基于地域的銷售餅圖只涉及一個變量,分析可以稱為單變量分析。
雙變量分析試圖在散點圖中理解兩個變量在同一時間的差異。例如,分析銷售和支出的數量可以被認為是雙變量分析的一個例子。
多變量分析涉及兩個以上變量的研究,以了解變量對反應的影響。
45、解釋星型模型
它是具有中心表的傳統數據庫模式。附屬表將ID映射到物理名稱或描述,可以使用ID字段連接到中心事實表;這些表被稱為查找表,主要用于實時應用程序,因為它們可以節省大量內存。有時星型模式涉及多個匯總層以更快地獲取相應的信息。
46、什么是整群抽樣(Cluster sampling)?
整群抽樣是指整群地抽選樣本單位,對被抽選的各群進行全面調查的一種抽樣組織方式。例如,檢驗某種零件的質量時,不是逐個抽取零件,而是隨機抽若干盒 (每盒裝有若干個零件),對所抽各盒零件進行全面檢驗。如果全及總體劃分為單位數目相等的R個群,用不重復抽樣方法,從R群中抽取r群進行調查。
47、什么是系統抽樣(Systematic Sampling)?
先將總體的全部單元按照一定順序排列,采用簡單隨機抽樣抽取第一個樣本單元(或稱為隨機起點),再順序抽取其余的樣本單元,這類抽樣方法被稱為等距抽樣(Systematic Sampling)。等距抽樣又稱為機械抽樣、系統抽樣。等距抽樣往往不能給出估計量的估計方差。
48、什么是特征向量(Eigenvectors)和特征值(Eigenvalues)?
特征向量用于理解線性變換。在數據分析中,通常計算相關或協方差矩陣的特征向量。特征向量是特定線性變換通過翻轉、壓縮或拉伸作用的方向。
特征值可以被認為是在特征向量方向上的變換強度或壓縮發生的因子。
49、你能舉出一些假陽性比假陰性重要的例子嗎?
假陽性是指錯誤地將非事件分類為事件,也就是第一類錯誤。假陰性是指錯誤地將事件歸類為非事件的情況,也就是第二類錯誤。
在醫療領域,例如癌癥檢查他的癌癥檢測呈陽性,但他實際上沒有癌癥。這是一個假陽性的案例。在這個病人沒有癌癥的情況下對他進行化療是非常危險的。在沒有癌細胞的情況下,化療會對他正常健康的細胞造成一定的損害,可能導致嚴重的疾病,甚至癌癥。
50、你能舉出一些假陰性比假陽性重要的例子嗎?
假設有一個機場安檢如果一個真正有威脅的客戶被機場模型標記為無威脅,陪審團或法官決定釋放犯罪的罪犯都是這種情況
51、你能舉出一些假陽性和假陰性同樣重要的例子嗎?
在銀行業,貸款是賺錢的主要來源,如果你的還款率不好,銀行向你貸款面臨巨大的損失風險。銀行不想失去好客戶,也不想獲得差客戶。在這種情況下假陽性和假陰性都變得非常重要。
52、您能解釋一下驗證集和測試集之間的區別嗎?
驗證集可以被認為是訓練集的一部分,因為它用于參數選擇和避免模型的過擬合。測試集用于測試或評估訓練好的機器學習模型的性能。
簡單地說,區別可以概括為;訓練集是擬合參數,驗證集是測試訓練集的效果;測試集是評估模型的性能
53、解釋交叉驗證
交叉驗證是一種模型驗證技術,用于評估統計分析結果如何推廣到獨立數據集。主要用于預測目標和估計模型在實踐中實現的準確性的背景。
交叉驗證的目標是定義一個數據集來在訓練階段測試模型(即驗證數據集),以限制過擬合等問題,并深入了解模型將如何推廣到一個獨立的數據集。
歡迎分享轉載→http://www.avcorse.com/read-235610.html
Copyright ? 2024 有趣生活 All Rights Reserve吉ICP備19000289號-5 TXT地圖HTML地圖XML地圖