大數據監測監管是針對互聯網視聽節目、互聯網輿情、移動互聯網視聽內容、網絡出版物、手機APP內容等不同監測領域于一體的一套可擴展的智能監測解決方案,主要包括“全網無證網站視聽節目監測系統”、“持證網站視聽節目監測系統”、“'兩微一端'視聽節目監測系統”、“網絡直播內容監測系統”、“網絡文學監測系統&rdquo、“游戲APP監測系統&rdquo、“互聯網輿情監測系統&rdquo、“手機APP內容監管系統&rdquo、“IPTV節目內容監管系統”等產品,分別針對不同監測范圍和不同監測內容,充分考慮技術上應有的主動性和先進性,在自動發現、下載、取證各類互聯網內容的基礎上,充分利用現代計算機文本內容分類、自然語言處理、音視頻內容分析等模式識別算法,對下載的互聯網內容進行智能化的自動審核判定,通過良好的人機交互界面實現主動、高效的互聯網內容綜合監測。
(一)全網無證網站視聽節目監測系統:
針對全網無證網站,主要面向各互聯網信息發布平臺進行違規視聽節目的智能采集與內容分析研判,監測目標范圍主要包括:各大主流搜索引擎、微博搜索、網盤搜索、磁力搜索、微信公眾號等。系統綜合利用視聽節目鏈接有效性進行研判、文本分級詞庫(敏感詞加密顯示)檢索、音視頻圖像內容分析技術等多種技術手段,較傳統關鍵詞的方式大幅提升違規研判的準確率。
傳統的監測方式需要先搜集轄區內的無證視聽網站,然后選擇部分無證網站,由技術人員創建爬蟲模板后才能完成數據的采集與監測;因此傳統的監測方式不僅無法做到無證視聽網站的全面覆蓋,而且需要耗費大量的硬件資源以及網絡帶寬資源,同時搜索周期長,一般需要1至2天;互聯網80%以上的信息來源于主流的傳播平臺與發布渠道,因此系統能夠以小的代價在15分鐘內完成轄區內敏感視聽節目的全網搜集與準確過濾,此外多種技術手段進行違規復篩,能夠保障自動將準確的敏感視聽節目推送給用戶;
(二)持證網站視聽節目監測系統:
系統自動采集持證網站全站視聽節目,對持證網站視聽節目進行全方位的深入分析,主要包括:板塊分布情況;日新增節目的發布趨勢,節目發布時段分布;違規板塊分布、違規發布者分布、違規類型分布;違規節目發布趨勢、發布時段分布等。系統通過黑白名單及違規詞反衍自學習、文本內容初篩、音視頻圖像內容復篩等多種研判手段,顯著提升研判準確率。此外,系統獨創的四畫面監聽監看模式,大幅提升了人工復審的效率,并提供日常監聽監看工作量考核體系。
系統采用“后廠+前店”的工作模式,結合完備的敏感節目庫以及內容智能分析技術,應用分析完全貼合廣電總局的相關業務要求。
(三)“兩微一端”視聽節目監測系統:
系統通過網絡爬蟲自動搜集涉“我”的微博賬號、微信公眾號,涉“我”手機APP視聽應用,微博、微信公眾號中發布的視聽節目,手機APP應用中發布的視聽節目,通過違規專題配置與管理、違規視聽節目監測、違規視聽節目綜合檢索等核心功能,生成統計分析與報表。公司具備豐富的“兩微一端”數據采集技術經驗,能夠確保數據的查全率,除廣電領域外相關產品在安全領域也已實際落地應用。
(四)網絡直播內容監測系統:
系統利用互聯網爬蟲對直播平臺中的熱門播主、直播房間等信息進行主動搜集,對于觀眾較為密集或數量呈激增趨勢的播主或房間能夠主動提醒用戶實施關注,從而輔助用戶在一定程度上實現網絡直播服務平臺的日常監管。系統核心功能包括:(1)熱門主播自動發現與管理;(2)疑似違規播主分析研判;(3)敏感直播房間追蹤分析。該系統兼容直播網站與直播APP應用中的直播內容監測;能夠通過涉黃涉暴圖像檢測對直播視頻中的違規圖像自動追蹤,主動發現直播過程中的違規情況并報警;能夠對直播過程中的違規視頻進行自動取證。目前,該系統已在兩會期間發揮重要作用。
(五)網絡文學監測系統:
網絡文學監測系統針對互聯網中傳播的文學出版物,重點針對網絡小說、漫畫、有聲小說等。系統首先采用先進的網絡爬蟲與下載技術,在自動發現、下載、取證各類出版物內容的基礎上,然后充分利用涉黃涉暴圖像識別、字符識別、語音識別、文本比對等技術,對下載的相關網絡文學出版物內容進行智能化判定,實現主動高效的網絡文學監測。系統自動對網站內的網絡文學出版物中是否含有違規內容進行分析研判與自動下載取證。系統自動對含有違規內容的網絡文學出版物進行持續監測,以檢查違規內容的刪除情況,如未刪除,則督促其盡快刪除。系統自動對網絡文學出版物的傳播熱度、傳播違規內容等情況進行統計分析。
系統采用語音識別技術將有聲小說識別翻譯為文本形式,能夠自動發現有聲小說中的敏感內容;
系統采用字符識別技術對圖片中的文字進行識別,能夠自動發現圖片文字中的敏感內容;
系統采用涉黃涉暴圖像識別技術主動發現網絡出版物中的涉黃涉暴內容;
系統的涉黃圖像識別支持“成人漫畫”的自動識別,且識別準確率高。
(六)游戲APP監測系統:
網絡文學監測系統針對互聯網中傳播的文學出版物,重點針對網絡小說、漫畫、有聲小說等。系統首先采用先進的網絡爬蟲與下載技術,在自動發現、下載、取證各類出版物內容的基礎上,然后充分利用涉黃涉暴圖像識別、字符識別、語音識別、文本比對等技術,對下載的相關網絡文學出版物內容進行智能化判定,實現主動高效的網絡文學監測。系統自動對網站內的網絡文學出版物中是否含有違規內容進行分析研判與自動下載取證。系統自動對含有違規內容的網絡文學出版物進行持續監測,以檢查違規內容的刪除情況,如未刪除,則督促其盡快刪除。系統自動對網絡文學出版物的傳播熱度、傳播違規內容等情況進行統計分析。
主動搜集轄區內相關的游戲APP信息,并通過文本分析、視頻圖像分析等技術對于游戲的簡介、宣傳海報等內容進行分析,能夠主動發現疑似含有違規內容的游戲APP,從而提醒用戶進行關注,在一定程度上實現游戲APP違規內容的日常監管。主要包括兩個核心功能:
(1)游戲APP自動發現與管理
針對游戲APP門戶網站,系統主動搜集省轄區本地或用戶指定條件的相關游戲APP信息,用戶可通過游戲APP自動發現與管理模塊對系統自動發現的游戲APP軟件信息進行管理操作。可查詢系統搜集到的游戲APP軟件的相關信息。
(2)疑似違規游戲APP自動研判與審核
結合“違規知識庫”以及淫穢色情圖像識別技術,能夠對游戲APP中的文本以及相關圖片進行自動鑒別,將其自動研判為違規或非違規,由人工審核后提交系統保存。
(七)互聯網輿情監測系統:
網絡文學監測系統針對互聯網中傳播的文學出版物,重點針對網絡小說、漫畫、有聲小說等。系統首先采用先進的網絡爬蟲與下載技術,在自動發現、下載、取證各類出版物內容的基礎上,然后充分利用涉黃涉暴圖像識別、字符識別、語音識別、文本比對等技術,對下載的相關網絡文學出版物內容進行智能化判定,實現主動高效的網絡文學監測。系統自動對網站內的網絡文學出版物中是否含有違規內容進行分析研判與自動下載取證。系統自動對含有違規內容的網絡文學出版物進行持續監測,以檢查違規內容的刪除情況,如未刪除,則督促其盡快刪除。系統自動對網絡文學出版物的傳播熱度、傳播違規內容等情況進行統計分析。
系統能夠實時搜集互聯網的海量輿情信息,包括各新聞門戶網站、論壇、博客、微博、貼吧、播客、各搜索引擎、微信公眾號、外媒、平媒等,也可定制本地化的目標網站,納入輿情采集范圍。
系統構建一個核心涉廣電輿情知識庫:具有完備的涉廣電輿情知識庫,內容涵蓋涉廣電人物、機構、政策法規、敏感節目、涉廣電微博賬號,涉廣電微信公眾號等各個方面。
系統基于成熟的輿情研判技術,自然語言處理技術(主要包括大規模文本排重、垃圾文本信息過濾、文本分類、聚類、文本情感分析、專題影響力分析、代表性話題聚類提取、人物/組織抽取技術),為互聯網輿情智能化的整理分析、統計編報提供有效的技術保障;
系統將情感分析技術與代表性話題提取技術相結合,統計分析網民對某輿情事件的褒貶傾向分布情況以及正負面代表性觀點,能夠幫助用戶更準確地了解關于某輿情專題的社情民意;
目前已廣泛應用于國家新聞出版廣電總局等各個輿情監測領域。
(八)手機APP內容監管系統:
手機APP內容監管系統綜合利用互聯網爬蟲、文本分析、語音識別、關鍵詞檢索等信息采集與分析技術,實現對手機APP中的文本(包括文章、帖文、評論等文本內容)、視聽節目內容進行自動采集抓取與分析,按照用戶的各種業務要求,主動發現手機APP中發布的違規內容。
(九)IPTV節目內容監管系統解決方案:
系統支持來源合法性監測和內容合法性檢測兩個核心功能。
(1)直播節目來源合法性監測
分別在播控平臺出口②和用戶終端⑤分別對直播節目實時采集存儲后,通過音頻/視頻模版比對技術對直播節目進行比對分析,以及時發現直播節目中被非法篡改的節目,進而對直播節目的來源是否合法進行監測。
(2)點播節目內容合法性監測
在用戶終端⑤,對點播節目進行采集存儲,進行智能分析,以便自動發現非法的IPTV點播節目內容,例如判斷節目視頻中是否含有淫穢、暴力、反動、危害社會穩定等各種違規內容。 |