2020年高級經(jīng)濟(jì)師農(nóng)業(yè)經(jīng)濟(jì)專業(yè)論文:隨機(jī)森林垃圾郵件檢測算法


關(guān)鍵詞:垃圾郵件、隨機(jī)森林、合成少數(shù)類過采樣技術(shù)
引言
電子郵件是使用率最高的網(wǎng)絡(luò)應(yīng)用之一,是人們通過網(wǎng)絡(luò)交流溝通的重要工具。但是,垃圾郵件作為正常郵件的附屬產(chǎn)物,已經(jīng)嚴(yán)重影響到國家、企業(yè)和以及個(gè)人之間的網(wǎng)絡(luò)通訊與安全,甚至造成嚴(yán)重的經(jīng)濟(jì)損失。現(xiàn)在,越來越多的學(xué)者將分類預(yù)測技術(shù)應(yīng)用于垃圾郵件識別,如陳龍等提出了一種基于支持向量機(jī)的自適應(yīng)性分類器,并應(yīng)用于用于檢測垃圾郵件[1]。劉潔等提出基于改進(jìn)互信息的加權(quán)樸素貝葉斯算法以提高垃圾郵件識別的精確度和召回率[2]。本文提出了一種結(jié)合SMOTE和隨機(jī)森林的算法,并應(yīng)用于垃圾郵件檢測,以提高垃圾郵件的識別率。
基于SMOTE和隨機(jī)森林的垃圾郵件識別算法
垃圾郵件檢測數(shù)據(jù)往往是不平衡數(shù)據(jù),即數(shù)據(jù)集中的正常郵件和垃圾郵件的數(shù)量是不均衡的。針對此問題,本文提出了基于合成少數(shù)類過采樣技術(shù)(SMOTE)[3]和隨機(jī)森林集成學(xué)習(xí)算法[4]的RF-smote算法。算法主要分兩步,首先應(yīng)用SMOTE算法對少數(shù)類別的垃圾郵件樣本進(jìn)行分析和新樣本合成,將生成的新樣本添加到數(shù)據(jù)集中,消除正常郵件和垃圾郵件樣本數(shù)量的不平衡。然后,應(yīng)用隨機(jī)森林集成學(xué)習(xí)算法,進(jìn)行垃圾郵件識別。
SMOTE算法步驟如下:1.針對訓(xùn)練數(shù)據(jù),采取最鄰近算法,計(jì)算出垃圾郵件樣本數(shù)據(jù)的K個(gè)近鄰;2.針對每個(gè)垃圾郵件樣本,與它K近鄰中隨機(jī)選擇一個(gè)的樣本,進(jìn)行隨機(jī)線性插值;3.重復(fù)第2步,直至生成的新樣本個(gè)數(shù)達(dá)到合成比率要求。4.將新合成的樣本數(shù)據(jù)與原數(shù)據(jù)集合成,產(chǎn)生新的訓(xùn)練集。隨機(jī)森林是一個(gè)包含多個(gè)決策樹的集成分類器。算法步驟如下:1.從SOMTE算法處理后的平衡訓(xùn)練集中,通過有放回的重取樣來獲得N’個(gè)樣本作為生成決策樹的訓(xùn)練集;2.如果每個(gè)樣本有M個(gè)特征,隨機(jī)選擇m(m
數(shù)據(jù)集與評價(jià)準(zhǔn)則
實(shí)驗(yàn)選擇UCI數(shù)據(jù)集合Spambase,該數(shù)據(jù)集包含58個(gè)屬性和4601個(gè)實(shí)例,主要用來研究對垃圾郵件的分類檢測。該數(shù)據(jù)集合是一個(gè)不平衡數(shù)據(jù)集合,包含兩個(gè)類別:垃圾郵件(1813個(gè)實(shí)例),正常郵件(2788個(gè)實(shí)例)。實(shí)驗(yàn)評估采用準(zhǔn)確率(ACC)、檢測率(DR)和精確率(PR)三種方法衡量算法的性能。準(zhǔn)確率定義如公式(1),表示正確識別正常郵件和垃圾郵件的實(shí)例數(shù)與全體實(shí)例數(shù)的比值。公式1-3中,TP表示垃圾郵件的預(yù)測實(shí)例數(shù),TN表示正常郵件預(yù)測實(shí)例數(shù),F(xiàn)P表示正常郵件錯(cuò)誤的判定為垃圾郵件的實(shí)例數(shù),F(xiàn)N表示垃圾郵件判定為正常郵件的實(shí)例數(shù)。
實(shí)驗(yàn)與分析
實(shí)驗(yàn)基于WEKA[5]平臺進(jìn)行,RF-smote在檢測垃圾郵件前對數(shù)據(jù)集合Spambase中的垃圾郵件樣本進(jìn)行了SMOTE合成,使用的最近鄰設(shè)置為5,合成率設(shè)置為50%,隨機(jī)森林算法中決策樹數(shù)目設(shè)置為10。RF-smote算法應(yīng)用的合成數(shù)據(jù)中,垃圾郵件實(shí)例數(shù)為2719,正常郵件數(shù)為2788,基本變?yōu)槠胶鈹?shù)據(jù)。實(shí)驗(yàn)評估采用十折交叉驗(yàn)證進(jìn)行,實(shí)驗(yàn)數(shù)據(jù)如表1所示。從表1可以看出,本文提出的算法RF-smote在準(zhǔn)確率、檢測率和精確率性能指標(biāo)上,均優(yōu)于未應(yīng)用SMOTE時(shí)的算法RandomForenst(RF).在準(zhǔn)確率指標(biāo)上,RF-smote優(yōu)于RF0.8%。在檢測率指標(biāo)上,RF-smote優(yōu)于RF3.8%。同樣,在精確率指標(biāo)上,RF-smote優(yōu)于RF2.9%。因此,本文提出的算法RF-smote在垃圾郵件檢測方面展示出了良好的性能。5結(jié)束語本文應(yīng)用SMOTE算法和隨機(jī)森林集成學(xué)習(xí)算法進(jìn)行垃圾郵件識別,并在Spambase數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),結(jié)果表明本文提出的算法性能表現(xiàn)良好。
參考文獻(xiàn):
[1]陳龍,梁意文,譚成予.基于自適應(yīng)性分類器的垃圾郵件檢測[J].計(jì)算機(jī)工程,2018,(5):194-200.
[2]劉潔,王錚,王輝.基于IMI-WNB算法的垃圾郵件過濾技術(shù)研究[J].計(jì)算機(jī)工程,2020,(6):1-7.
[3]NiteshV.SyntheticMinorityOver-samplingTechnique[J].JournalofArtificialInteliigenceResearch,2002,(16):321-357.
[4]袁梅宇.數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)-WEKA應(yīng)用技術(shù)與實(shí)踐[M].北京:清華大學(xué)出版社,2014.
考生可點(diǎn)擊下方下載查看更多關(guān)于高級經(jīng)濟(jì)師論文的相關(guān)參考文檔,小編建議大家可提前填寫 免費(fèi)預(yù)約短信提醒服務(wù),屆時(shí)我們會及時(shí)提醒您2020年各地區(qū)高級經(jīng)濟(jì)師考試合格證書領(lǐng)取時(shí)間通知。
以上內(nèi)容是2020年高級經(jīng)濟(jì)師農(nóng)業(yè)經(jīng)濟(jì)專業(yè)論文:隨機(jī)森林垃圾郵件檢測算法,小編為廣大考生上傳更多2020年高級經(jīng)濟(jì)師職稱評審參考文檔,可點(diǎn)擊“免費(fèi)下載”按鈕后進(jìn)入下載頁面。
最新資訊
- 2026年高級經(jīng)濟(jì)師評審預(yù)警!論文早做準(zhǔn)備避免來不及2025-09-23
- 早發(fā)早排刊!2026年高級經(jīng)濟(jì)師職稱論文準(zhǔn)備須知2025-09-22
- 人社局認(rèn)定!2026年高級經(jīng)濟(jì)師職稱論文有效期刊發(fā)表指南2025-09-19
- 提前規(guī)劃!2026年高級經(jīng)濟(jì)師需要準(zhǔn)備幾篇論文?提前多久發(fā)?2025-09-18
- 經(jīng)管類專業(yè)整理!2026年高級經(jīng)濟(jì)師論文發(fā)表注意:合規(guī)期刊清單匯總2025-09-17
- 高級經(jīng)濟(jì)師論文發(fā)表價(jià)格一覽!從千元到萬元,選擇需注意2025-09-16
- 開始準(zhǔn)備!2026年高級經(jīng)濟(jì)師評審論文該提前多久發(fā)?一文看全2025-09-15
- 人社部認(rèn)可!2025年高級經(jīng)濟(jì)師評審有效期刊全匯總(含省級/國家級/核心目錄)2025-09-12
- 2025年高級經(jīng)濟(jì)師評審:論文查重標(biāo)準(zhǔn)+常見誤區(qū),這些錯(cuò)誤別犯!2025-09-12
- 人社部嚴(yán)查!2025年高級經(jīng)濟(jì)師評審:學(xué)術(shù)不端行為匯總,別踩坑2025-09-11