您當前的位置:檢測資訊 > 生產品管
嘉峪檢測網 2019-10-10 14:21
如何進行抽樣
抽樣分類
1)概率抽樣:以數據概率論為基礎,按照隨機的原則進行抽樣;
2)非概率抽樣:根據人類的主觀經驗和狀態進行判斷;
概率抽樣方法
1)簡單隨機抽樣:按等概率原則直接從總中抽取N個樣本
優點:易于操作;
缺點:不能保證樣本能完美代表總體;
適用:個體分布均勻的場景
2)等距抽樣:先將總體中的每個個體按順序編號,然后計算出抽樣間隔,再按固定抽取個體
優點:易于操作;
缺點:再明顯的分布規律時容易產生偏差;
適用:個體分布均勻的場景,呈現明顯的均勻分布規律
3)分層抽樣:先將所有個體樣本按照某種特征劃分為幾個類別,然后從每個類別中使用隨機抽樣或等距抽樣的方法選擇個體組成樣本
優點:降低抽樣誤差,針對不同類別的數據樣本進行單獨研究;
缺點:無缺點;
適用:帶有分類邏輯的屬性,標簽等特征的數據
4)整群抽樣:先將所有樣本分為幾個小群體集,然后隨機抽樣幾個小群體集代表總體。
優點:易于操作;
缺點:分布受限于小群體集的劃分,抽樣誤差較大;
適用:小群體集的特征差異比較小,并且對劃分小群體集有更高的要求
抽樣需要注意問題
1)反應抽樣背景
a.數據時效性;
b.業務增長性;
c.數據來源多樣性;
d.業務數據可行性
2)滿足數據分析和建模需求
a.抽樣樣本量;
A.以時間為維度分布,至少包含一個能滿足預測的完整業務周期;
B.做預測(包含分類和回歸)分析建模的,需要考慮特征數量和特征值域(非數值)的分布,通常數據記錄數同時是特征數量和
特征值域的100倍以上;
C.做關聯規則分析模型,根據關聯前后項的數量,每個主體需要至少1000條數據。
D.異常檢測類分析建模,無論是監督還是非監督建模,數據記錄越多越好
b.抽樣樣本在不同類別中的分布問題
來源:實驗室ISO17025