在精益咨詢活動(dòng)的標(biāo)準(zhǔn)工時(shí)測定過程中,剔除異常值是一種常見的數(shù)據(jù)處理方法。剔除異常值的作用有很多,比如:
1. 確保數(shù)據(jù)準(zhǔn)確性:異常值可能是由于數(shù)據(jù)記錄錯(cuò)誤、操作失誤或其他未知因素導(dǎo)致的,如果不將這些異常值排除在外,將會(huì)影響到標(biāo)準(zhǔn)工時(shí)的準(zhǔn)確性和可靠性。
2. 保證結(jié)果穩(wěn)定性:異常值可能會(huì)對數(shù)據(jù)的分布和統(tǒng)計(jì)指標(biāo)產(chǎn)生較大影響,導(dǎo)致結(jié)果波動(dòng)較大,剔除異常值可以使結(jié)果更加穩(wěn)定和可靠。
3. 提高決策質(zhì)量:基于含有異常值的數(shù)據(jù)得出的標(biāo)準(zhǔn)工時(shí)可能會(huì)導(dǎo)致錯(cuò)誤的決策。通過剔除異常值,可以更準(zhǔn)確地評估工作量、工時(shí)等,從而支持更合理的生產(chǎn)計(jì)劃和資源分配決策。
4. 符合統(tǒng)計(jì)假設(shè):許多統(tǒng)計(jì)方法要求數(shù)據(jù)符合一定的假設(shè),如正態(tài)分布等。異常值的存在可能會(huì)違反這些假設(shè),影響統(tǒng)計(jì)分析的準(zhǔn)確性。
5. 保護(hù)數(shù)據(jù)的一致性:異常值可能會(huì)對數(shù)據(jù)分析和模型的結(jié)果產(chǎn)生誤導(dǎo),剔除異常值可以更好地保護(hù)數(shù)據(jù)的一致性和可靠性。
雖然剔除異常值在某種程度上可能會(huì)損失一部分信息,但在標(biāo)準(zhǔn)工時(shí)測定等領(lǐng)域,保持?jǐn)?shù)據(jù)的準(zhǔn)確性和可靠性更為重要。剔除異常值應(yīng)該在慎重考慮的基礎(chǔ)上進(jìn)行,結(jié)合具體情況和領(lǐng)域知識(shí),以確保數(shù)據(jù)處理的合理性和有效性。
這里給大家介紹幾種精益咨詢識(shí)別異常值的常用方法:
方法1. 標(biāo)準(zhǔn)差方法:使用標(biāo)準(zhǔn)差來檢測異常值。一般情況下,如果數(shù)據(jù)點(diǎn)的值與平均值的偏差超過3倍標(biāo)準(zhǔn)差,可以將其視為異常值。
方法2. 箱線圖方法:通過繪制箱線圖,可以很容易地看出數(shù)據(jù)中的異常值。箱線圖能夠顯示出數(shù)據(jù)的整體分布情況以及離群點(diǎn)。在繪制箱線圖的時(shí)候,要先明確幾個(gè)名詞:
2-1. 確定五數(shù)概括:
- 最小值(Minimum)
- 下四分位數(shù)(Q1,25th percentile)
- 中位數(shù)(Median,50th percentile)
- 上四分位數(shù)(Q3,75th percentile)
- 最大值(Maximum)
2-2. 計(jì)算箱體長度:
- 箱體長度為 Q3 - Q1。
2-3. 計(jì)算異常值的上下界:
- 下界:Q1 - 1.5 IQR(IQR為四分位距,即箱體長度)
- 上界:Q3 + 1.5 IQR
箱線圖的繪制步驟如下:
① . 繪制箱體:在圖中畫出一個(gè)箱子,上邊是 Q3,下邊是 Q1,中間是箱體的長度。
② . 繪制中位數(shù)線:在箱子內(nèi)部繪制一條線表示中位數(shù)。
③. 繪制須(Whiskers):
- 從箱子上邊延伸出一條線,直到最大值,作為箱線圖的上須。
- 從箱子下邊延伸出一條線,直到最小值,作為箱線圖的下須。
④. 標(biāo)記異常值:將超出上下界的數(shù)據(jù)點(diǎn)標(biāo)記為異常值,通常用點(diǎn)或其他符號表示。
方法3. Z-score方法:計(jì)算數(shù)據(jù)點(diǎn)的Z-score(標(biāo)準(zhǔn)化分?jǐn)?shù)),如果Z-score的絕對值大于某個(gè)閾值(一般是2或3),則可以將該數(shù)據(jù)點(diǎn)視為異常值。
Z-score方法是一種常用的統(tǒng)計(jì)方法,用于判斷一個(gè)數(shù)據(jù)點(diǎn)與其所在數(shù)據(jù)集的平均值的偏離程度。通過計(jì)算數(shù)據(jù)點(diǎn)的Z-score,我們可以確定該數(shù)據(jù)點(diǎn)在數(shù)據(jù)集中的位置,從而識(shí)別可能的異常值。
計(jì)算Z-score的步驟:
計(jì)算平均值和標(biāo)準(zhǔn)差:首先計(jì)算數(shù)據(jù)集的平均值(mean)和標(biāo)準(zhǔn)差(standard deviation)。
計(jì)算Z-score:對于每個(gè)數(shù)據(jù)點(diǎn),可以使用以下公式計(jì)算其Z-score:
其中,(X) 是數(shù)據(jù)點(diǎn)的值,(mean)是數(shù)據(jù)集的平均值,(std)是數(shù)據(jù)集的標(biāo)準(zhǔn)差。
識(shí)別異常值:根據(jù)Z-score的值來判斷數(shù)據(jù)點(diǎn)是否為異常值。
一般來說,如果Z-score的絕對值大于某個(gè)閾值(一般是2或3),則可以將該數(shù)據(jù)點(diǎn)視為異常值。
方法4. 密度估計(jì)方法:使用核密度估計(jì)等方法來估計(jì)數(shù)據(jù)的密度分布,從而識(shí)別出那些偏離正常分布的數(shù)據(jù)點(diǎn)。
方法5. 專業(yè)知識(shí)和領(lǐng)域經(jīng)驗(yàn):在某些情況下,領(lǐng)域?qū)<铱赡軙?huì)有更深入的了解,能夠幫助鑒別異常值。
方法6. 可視化方法:通過繪制直方圖、散點(diǎn)圖等可視化圖表,可以直觀地發(fā)現(xiàn)數(shù)據(jù)中的異常值。
方法7. 機(jī)器學(xué)習(xí)方法:有一些基于機(jī)器學(xué)習(xí)的算法,如孤立森林(Isolation Forest)和局部異常因子(Local Outlier Factor),可以用來檢測異常值。
方法8. 交叉驗(yàn)證:在數(shù)據(jù)分析中,可以使用交叉驗(yàn)證方法來識(shí)別異常值,比如將數(shù)據(jù)集分成訓(xùn)練集和測試集,然后檢測測試集中的異常值。
在精益咨詢的實(shí)際應(yīng)用中,通常會(huì)結(jié)合多種方法來識(shí)別異常值,以確保準(zhǔn)確性和可靠性。需要根據(jù)具體的數(shù)據(jù)特點(diǎn)和分析目的選擇合適的方法。