,,

一、什么是敏感詞匯？

1.分類

敏感詞可大致分為以下幾類：政治相關(guān)和人名、迷信邪教、黃賭毒、槍支彈藥類、罵人諷刺類、時事類、廣告和非法信息、其他類。

網(wǎng)上有很多專門的敏感詞庫，我在網(wǎng)盤里上傳了一份名為百度內(nèi)部的敏感詞文件，僅供查看https://pan.baidu.com/s/1o8xtX1K。

2.常出沒的地方

所有傳播的信息都需要。發(fā)送這些垃圾信息的人或者團(tuán)隊(duì)被稱為“垃圾蟲”。

敏感詞不僅出現(xiàn)在 社區(qū)論壇、IM聊天、影音娛樂 等內(nèi)部的評論或上傳信息區(qū)域，還隱藏在 頭像、昵稱和簽名 這種地方，需要全面鑒別。

3.哪些地方需要屏蔽？

平常我們主要做的屏蔽是 廣告過濾、黃賭毒、暴力恐怖、謠言排查 等幾種。不同的場合屏蔽的級別不同，而且基于傳播時效性的不同，屏蔽方式分為同步過濾和異步召回。

比如微博的屏蔽就需要做到基礎(chǔ)和全面，甚至一些時事熱點(diǎn)也要納入屏蔽范圍。

再比如B站，為了保持彈幕的質(zhì)量，它還需要屏蔽一些刷屏的、內(nèi)容尷尬的彈幕，這些彈幕的內(nèi)容不算敏感，只是讓人不喜歡。B站在彈幕方面算是鼻祖，做到了極致—— 用戶可以根據(jù)顏色、字體大小、展示方式甚至自定義的文本來進(jìn)行屏蔽，同時，在視頻右邊還有專門的彈幕欄，也就是說，我可以彈幕內(nèi)容當(dāng)做評論一條條地看而不受其干擾。如圖所示：

二、目前有哪些手段可以進(jìn)行屏蔽？

綜合說來，技術(shù)屏蔽手段主要通過特征庫、語義分析、機(jī)器學(xué)習(xí)等方法來展開。網(wǎng)易易盾上是分三類來寫的：垃圾發(fā)現(xiàn)、垃圾識別、垃圾處理，有點(diǎn)表意不明，所以下面具體來介紹一下。（以下綜合易盾和joylnwang的博客整理而成。）

1.垃圾發(fā)現(xiàn)——針對新垃圾

①用戶舉報(bào)：主要是指用戶在使用產(chǎn)品過程中遇到不良信息，于是進(jìn)行投訴。

為了保證投訴的效果，我們需要在 舉報(bào)的便捷性、顯眼展示和獎勵機(jī)制 上花一些功夫去做，同時還需要 建立科學(xué)的舉報(bào)分類 ，不僅方便用戶選擇，還能極大地幫助反垃圾訓(xùn)練特征樣本，綜合來做才能有更好的效果。

②內(nèi)容聚合：主要是 通過判斷內(nèi)容的相似性 ，從而確定是否為垃圾信息。

就文本來說，其相似度分為兩個層面， 第一是基于編輯距離的文本相似度計(jì)算 ，這種算法是根據(jù)一段文字如何經(jīng)過增刪、移動而轉(zhuǎn)化為另一段文字的操作步數(shù)，來計(jì)算兩段文字的相似程度，運(yùn)算的時間和空間復(fù)雜度都很高， 對于評論，標(biāo)題這樣的短文本往往能獲得不錯的效果 ，缺點(diǎn)是對長文本不太適用，且沒有考慮文本中意群的重要性。

第二是需要在原始文本中切分出有意義的Term，然后對于兩篇文章的Term集合，運(yùn)算得出文本的相似程度。復(fù)雜性上要高于前者， 但在處理長文本的方面有優(yōu)勢 ，而且更有可能從意義的角度識別出相似的文本族（來源于https://blog.csdn.net/joylnwang/article/details/6831565）。

③蜜罐系統(tǒng)：主要是針對專業(yè)的垃圾蟲團(tuán)體。

通常垃圾蟲都有特定的工具協(xié)助，而這些工具大多會分析頁面元素并進(jìn)行調(diào)用。如果在頁面中埋伏一些“蜜罐”，正常的用戶無法看到這些入口，但是程序會直接調(diào)用這些入口進(jìn)行垃圾信息發(fā)送。比如某一些隱藏的評論主題，只有程序才會去抓取這些主題并對它們發(fā)送垃圾信息。那么進(jìn)了這些“蜜罐”里的人，都可以被判斷為非正常的用戶。

2.垃圾識別

①特征匹配：主要是基于已有垃圾特征進(jìn)行匹配。

對文本來說，建立敏感詞庫就可以直接屏蔽相關(guān)詞句，同時，對于文字的變種比如簡轉(zhuǎn)繁、加空格、形近字、音近字，都可以有效識別。

對圖片來說，主要是MD5，魯棒哈希，Sift特征識別等手段。對于音頻和視頻也支持MD5匹配。（原諒我實(shí)在不能理清后面幾種手段的具體技術(shù)實(shí)現(xiàn)，不能展開講，有興趣的可以百度。）總之，這幾種手段可以支持人像識別、動漫識別、相似匹配、圖片旋轉(zhuǎn)裁剪、改變亮度色調(diào)、水印識別等，基本囊括了所有的不良圖片。

②模型匹配： 主要是基于機(jī)器學(xué)習(xí) ，可以在沒有具體特征樣本庫的情況下識別內(nèi)容的分類。

音頻文件也通過大量語料學(xué)習(xí)能把語音轉(zhuǎn)換成文本，然后進(jìn)入文本匹配過程。視頻則通過截圖的方式轉(zhuǎn)換成為圖片識別。

③規(guī)則匹配：即模式匹配，分為正則表達(dá)式、多模式匹配算法、基于元數(shù)據(jù)的定制等。

百度給的定義是：模式匹配是數(shù)據(jù)結(jié)構(gòu)中字符串的一種基本運(yùn)算，給定一個子串，要求在某個字符串中找出與該子串相同的所有子串。比如自定義規(guī)則：同IP下5分鐘內(nèi)發(fā)送內(nèi)容相似度超80%的封禁1小時。

3.垃圾處理

①基礎(chǔ)處理：刪除內(nèi)容，封禁內(nèi)容，封禁用戶，刪除用戶，封禁IP，封禁設(shè)備等常規(guī)手段

②隱蔽操作：普通的屏蔽操作容易被垃圾蟲感知，當(dāng)他們發(fā)現(xiàn)被屏蔽時，會想辦法來“破解”反垃圾。故需要進(jìn)行隱蔽，比較常見的做法有：垃圾發(fā)送接口返回成功，但實(shí)際僅用戶自己可見。

比如直播中的彈幕，進(jìn)行虛擬展示，僅用戶自己可見，其他人都看不到。

③后續(xù)操作：每天把刪除的垃圾內(nèi)容匯總到內(nèi)部分揀平臺，由專業(yè)人員進(jìn)行分析和對數(shù)據(jù)的分揀標(biāo)記，完成各種模型以及規(guī)則的升級。

4.介紹一種常用常見的屏蔽工具——Adblock

Adblock是Mozilla Firefox、Mozilla Application Suite以及Google Chrome瀏覽器所使用的擴(kuò)展。

Adblock允許用戶攔截廣告在內(nèi)的各種頁面元素，并使這些內(nèi)容不被下載和顯示。右鍵單擊一個條幅廣告，在上下文菜單中選擇“Adblock”，它就再也不會被載入了；或者在側(cè)欄打開 Adblock Plus 查看頁面的所有元素，然后選擇阻止條幅廣告。您可以在過濾器中使用通配符或正則表達(dá)式來阻擋所有廣告。

国产视频自拍一区-99视频精品全部免费免费观-三级视频网站在线观看-轻轻碰在线视频免费视频国产999在线观看_国产情吕AⅤ毛片AⅤ毛片_国产欧美一区二区精品性色_国产女人在线视频

互聯(lián)網(wǎng)潛規(guī)則：如何進(jìn)行敏感詞屏蔽

一、什么是敏感詞匯？

1.分類

2.常出沒的地方

3.哪些地方需要屏蔽？

二、目前有哪些手段可以進(jìn)行屏蔽？

1.垃圾發(fā)現(xiàn)——針對新垃圾

③蜜罐系統(tǒng)：主要是針對專業(yè)的垃圾蟲團(tuán)體。

2.垃圾識別

3.垃圾處理

比如直播中的彈幕，進(jìn)行虛擬展示，僅用戶自己可見，其他人都看不到。

4.介紹一種常用常見的屏蔽工具——Adblock

国产视频自拍一区-99视频精品全部免费免费观-三级视频网站在线观看-轻轻碰在线视频免费视频 国产999在线观看_国产情吕AⅤ毛片AⅤ毛片_国产欧美一区二区精品性色_国产女人在线视频

互聯(lián)網(wǎng)潛規(guī)則：如何進(jìn)行敏感詞屏蔽

一、什么是敏感詞匯？

1.分類

2.常出沒的地方

3.哪些地方需要屏蔽？

二、目前有哪些手段可以進(jìn)行屏蔽？

1.垃圾發(fā)現(xiàn)——針對新垃圾

③蜜罐系統(tǒng)：主要是針對專業(yè)的垃圾蟲團(tuán)體。

2.垃圾識別

3.垃圾處理

比如直播中的彈幕，進(jìn)行虛擬展示，僅用戶自己可見，其他人都看不到。

4.介紹一種常用常見的屏蔽工具——Adblock

国产视频自拍一区-99视频精品全部免费免费观-三级视频网站在线观看-轻轻碰在线视频免费视频国产999在线观看_国产情吕AⅤ毛片AⅤ毛片_国产欧美一区二区精品性色_国产女人在线视频

一、什么是敏感詞匯？

3.哪些地方需要屏蔽？

二、目前有哪些手段可以進(jìn)行屏蔽？

③蜜罐系統(tǒng)：主要是針對專業(yè)的垃圾蟲團(tuán)體。

比如直播中的彈幕，進(jìn)行虛擬展示，僅用戶自己可見，其他人都看不到。