2020年高級經濟師農業經濟專業論文:隨機森林垃圾郵件檢測算法
關鍵詞:垃圾郵件、隨機森林、合成少數類過采樣技術
引言
電子郵件是使用率最高的網絡應用之一,是人們通過網絡交流溝通的重要工具。但是,垃圾郵件作為正常郵件的附屬產物,已經嚴重影響到國家、企業和以及個人之間的網絡通訊與安全,甚至造成嚴重的經濟損失。現在,越來越多的學者將分類預測技術應用于垃圾郵件識別,如陳龍等提出了一種基于支持向量機的自適應性分類器,并應用于用于檢測垃圾郵件[1]。劉潔等提出基于改進互信息的加權樸素貝葉斯算法以提高垃圾郵件識別的精確度和召回率[2]。本文提出了一種結合SMOTE和隨機森林的算法,并應用于垃圾郵件檢測,以提高垃圾郵件的識別率。
基于SMOTE和隨機森林的垃圾郵件識別算法
垃圾郵件檢測數據往往是不平衡數據,即數據集中的正常郵件和垃圾郵件的數量是不均衡的。針對此問題,本文提出了基于合成少數類過采樣技術(SMOTE)[3]和隨機森林集成學習算法[4]的RF-smote算法。算法主要分兩步,首先應用SMOTE算法對少數類別的垃圾郵件樣本進行分析和新樣本合成,將生成的新樣本添加到數據集中,消除正常郵件和垃圾郵件樣本數量的不平衡。然后,應用隨機森林集成學習算法,進行垃圾郵件識別。
SMOTE算法步驟如下:1.針對訓練數據,采取最鄰近算法,計算出垃圾郵件樣本數據的K個近鄰;2.針對每個垃圾郵件樣本,與它K近鄰中隨機選擇一個的樣本,進行隨機線性插值;3.重復第2步,直至生成的新樣本個數達到合成比率要求。4.將新合成的樣本數據與原數據集合成,產生新的訓練集。隨機森林是一個包含多個決策樹的集成分類器。算法步驟如下:1.從SOMTE算法處理后的平衡訓練集中,通過有放回的重取樣來獲得N’個樣本作為生成決策樹的訓練集;2.如果每個樣本有M個特征,隨機選擇m(m
數據集與評價準則
實驗選擇UCI數據集合Spambase,該數據集包含58個屬性和4601個實例,主要用來研究對垃圾郵件的分類檢測。該數據集合是一個不平衡數據集合,包含兩個類別:垃圾郵件(1813個實例),正常郵件(2788個實例)。實驗評估采用準確率(ACC)、檢測率(DR)和精確率(PR)三種方法衡量算法的性能。準確率定義如公式(1),表示正確識別正常郵件和垃圾郵件的實例數與全體實例數的比值。公式1-3中,TP表示垃圾郵件的預測實例數,TN表示正常郵件預測實例數,FP表示正常郵件錯誤的判定為垃圾郵件的實例數,FN表示垃圾郵件判定為正常郵件的實例數。
實驗與分析
實驗基于WEKA[5]平臺進行,RF-smote在檢測垃圾郵件前對數據集合Spambase中的垃圾郵件樣本進行了SMOTE合成,使用的最近鄰設置為5,合成率設置為50%,隨機森林算法中決策樹數目設置為10。RF-smote算法應用的合成數據中,垃圾郵件實例數為2719,正常郵件數為2788,基本變為平衡數據。實驗評估采用十折交叉驗證進行,實驗數據如表1所示。從表1可以看出,本文提出的算法RF-smote在準確率、檢測率和精確率性能指標上,均優于未應用SMOTE時的算法RandomForenst(RF).在準確率指標上,RF-smote優于RF0.8%。在檢測率指標上,RF-smote優于RF3.8%。同樣,在精確率指標上,RF-smote優于RF2.9%。因此,本文提出的算法RF-smote在垃圾郵件檢測方面展示出了良好的性能。5結束語本文應用SMOTE算法和隨機森林集成學習算法進行垃圾郵件識別,并在Spambase數據集上進行實驗,結果表明本文提出的算法性能表現良好。
參考文獻:
[1]陳龍,梁意文,譚成予.基于自適應性分類器的垃圾郵件檢測[J].計算機工程,2018,(5):194-200.
[2]劉潔,王錚,王輝.基于IMI-WNB算法的垃圾郵件過濾技術研究[J].計算機工程,2020,(6):1-7.
[3]NiteshV.SyntheticMinorityOver-samplingTechnique[J].JournalofArtificialInteliigenceResearch,2002,(16):321-357.
[4]袁梅宇.數據挖掘與機器學習-WEKA應用技術與實踐[M].北京:清華大學出版社,2014.
考生可點擊下方下載查看更多關于高級經濟師論文的相關參考文檔,小編建議大家可提前填寫 免費預約短信提醒服務,屆時我們會及時提醒您2020年各地區高級經濟師考試合格證書領取時間通知。
以上內容是2020年高級經濟師農業經濟專業論文:隨機森林垃圾郵件檢測算法,小編為廣大考生上傳更多2020年高級經濟師職稱評審參考文檔,可點擊“免費下載”按鈕后進入下載頁面。
最新資訊
- 發即廢!2025年高級經濟師職稱論文發表騙局曝光,這些要點再三注意!2025-11-14
- 2026年高級經濟師論文發表,怎么判斷一本期刊是否靠譜?2025-11-10
- 花錢發的論文不算數!2026年高級經濟師評審,這4類期刊再便宜也別投2025-11-07
- 發論文被騙?2026年高級經濟師評審,官方只認這3個發文渠道2025-11-06
- 干貨!2026年高級經濟師評審:高通過率期刊精選集(包含各專業)2025-11-05
- 2026年高級經濟師職稱論文陷阱:2000元發刊?100%是假刊!2025-11-03
- 警惕!2026年高級經濟師職稱論文,這些“無心之失”同樣構成學術不端2025-11-03
- 2026年高經職稱評審:你的論文是否有效?立即核對這3點2025-11-01
- 2026年高級經濟師評審必看!論文時效要求是5年?2025-10-28
- 2026年高級經濟師評審,論文只認第一作者或獨立作者?2025-10-27