CAC反垃圾分類系統(tǒng)是Coremail的后端反垃圾引擎。垃圾郵件經(jīng)過前端反垃圾GT網(wǎng)關(guān)引擎評分判斷之后,大部分的垃圾郵件都被過濾到垃圾箱,正常郵件投遞到收件箱,少部分郵件(在一定分值范圍內(nèi))進(jìn)入了可疑郵件隊(duì)列。進(jìn)入隊(duì)列的郵件再經(jīng)過CAC郵件分類系統(tǒng)過濾,將郵件分類成:正常郵件、訂閱郵件、廣告郵件、垃圾郵件四大類型。其中正常郵件和訂閱郵件將會(huì)投遞到用戶的收件箱,而廣告郵件和垃圾郵件將會(huì)投遞到用戶的垃圾箱。
反垃圾郵件服務(wù)運(yùn)營中心反垃圾分類系統(tǒng),對可疑郵件進(jìn)行智能分析,并進(jìn)行人工判定。 在反垃圾GT網(wǎng)關(guān)的基礎(chǔ)上,進(jìn)一步降低了郵件的漏判率。
n基本原理如下圖所示:
n判定過程:
n郵件進(jìn)入CAC分類系統(tǒng)后,先將相似的郵件聚類到一起,然后進(jìn)入分類引擎對郵件進(jìn)行分類,將郵件標(biāo)記為正常郵件,訂閱郵件,廣告郵件,垃圾郵件四者之一,并將郵件標(biāo)記和分類結(jié)果置信度返回給客戶端,由客戶端做后續(xù)的處理,對于置信度小于指定區(qū)間或重復(fù)次數(shù)過多的郵件,將會(huì)要求人工確認(rèn)此郵件的分類。
n學(xué)習(xí)過程:
n反垃圾郵件服務(wù)運(yùn)營中心郵件分類系統(tǒng)后臺會(huì)定時(shí)啟動(dòng)學(xué)習(xí)模塊,學(xué)習(xí)過去n天的分類系統(tǒng)處理結(jié)果,來不斷的進(jìn)化和處理新垃圾郵件類型。
反垃圾郵件服務(wù)運(yùn)營中心(CAC)應(yīng)用幾十種世界先進(jìn)的反垃圾技術(shù),根據(jù)反垃圾技術(shù)潮流的發(fā)展,不斷對技術(shù)進(jìn)行創(chuàng)新,為客戶提供獨(dú)特而實(shí)用的反垃圾運(yùn)營服務(wù)。
n國內(nèi)最好的中文垃圾郵件過濾算法
n傳統(tǒng)的文件比較方法,提取最重要的特征分詞,會(huì)導(dǎo)致某些次重要的特征分詞被丟棄,會(huì)影響分類器的準(zhǔn)確性。CAC郵件分類系統(tǒng)對于中文分詞不依賴中文字典,而是通過排列組合窮舉所有可能的分詞形式,然后通過統(tǒng)計(jì)來確認(rèn)哪些分詞比較重要,并針對html文檔和html tag進(jìn)行特殊處理。
n郵件評分技術(shù)
n反垃圾郵件服務(wù)運(yùn)營中心(CAC)使用多條評判垃圾郵件的規(guī)則,對郵件的發(fā)信IP,發(fā)信人地址,信件內(nèi)容等部分進(jìn)行評分。將總分與系統(tǒng)及用戶設(shè)置的閾值作比較,決定郵件是否評為垃圾郵件。使用郵件評分技術(shù)使得反垃圾郵件系統(tǒng)可以更靈活地組合各種過濾規(guī)則,系統(tǒng)管理員可以設(shè)定劃分垃圾郵件的系統(tǒng)過濾閾值參數(shù),從而動(dòng)態(tài)調(diào)整系統(tǒng)對垃圾郵件的過濾強(qiáng)度。
n二次學(xué)習(xí)機(jī)制
n反垃圾郵件服務(wù)運(yùn)營中心(CAC)聚類服務(wù)器使用半人工的分類器對未知郵件樣本進(jìn)行分類,SVM生成第一次分類結(jié)果之后,將所有學(xué)習(xí)樣本都投入分類器,抽取部分點(diǎn)讓人工再做一次糾偏,最終將糾偏之后的信息傳遞給分類器進(jìn)行訓(xùn)練,再學(xué)習(xí)一次,由此形成一個(gè)正向循環(huán),讓學(xué)習(xí)結(jié)果準(zhǔn)確性提高。
[1]反垃圾郵件服務(wù)運(yùn)營中心(CAC)為超過50個(gè)VIP客戶、140個(gè)IP提供RBL監(jiān)控和移除處理服務(wù)。CAC監(jiān)控的RBL組織包括9個(gè)國際著名反垃圾組織,第一時(shí)間監(jiān)控用戶IP是否被列入RBL,并幫助客戶提交相關(guān)信息,申請移除。
n截至2012年,CAC反垃圾中心已為70多個(gè)客戶移除RBL共208個(gè)。
針對企業(yè)的郵件類型,CAC可提供個(gè)性化的反垃圾算分服務(wù)。經(jīng)過算分后,能獲取到某一企業(yè)內(nèi)郵件的特征,從而調(diào)整判斷規(guī)則的分值,有效地解決郵件誤判和漏判的問題。