无码人妻A片一区二区三区_18禁裸乳无遮挡啪啪无码免费_91精品亚?影视在线?看_人人妻人人爽人人澡AV_国产精品人妻一区二区三区四区_午夜免费影视

中培偉業IT資訊頻道
您現在的位置:首頁 > IT資訊 > 大數據 > 文本獲取與預處理

文本獲取與預處理

2018-05-09 14:39:03 | 來源:中培企業IT培訓網

(2)輿情分析在大數據時代的背景下,網絡上存在大量以文本為代表的非結構化數據,特別是互聯網上的新聞、社交媒體數據,其中更不乏與商業銀行有關的輿情信息。對這些信息進行有效的挖掘和利用,將為商業銀行及時掌握在互聯網上傳播的潛在風險事件提供一個全新的視角。

實現輿情風險管理的文本挖掘技術過程一般分為文本獲取、預處理、分析挖掘、可視化展現等步驟。

1)文本獲取:商業銀行獲取文本的方式包括已采購的財經新聞、行業動態、研究報告等外部資訊信息,還可以通過開發采集工具來進一步擴大新聞媒體的采集范圍,比如對以微博、論壇為代表的社交媒體信息進行采集。采集方式包括搜索引擎(通過搜索引擎進行關鍵詞搜索,之后將所有結果通過爬網程序進行采集)、新聞網站、論壇頁面適配(通過Web爬蟲程序抓取微博或論壇頁面,并從頁面結構中解析出正文和評論數據)、微博頁面適配(通過模擬實際用戶登錄后對微博信息進行采集)。

2)預處理:包括中文分詞和文本去重等步驟,從而實現文本的預處理。前者是在獲取到文本數據之后,將文本切分成詞匯的集合,使得機器能夠更好地理解詞匯組成的文本。后者則通過相似哈希算法快速對海量文本相似程度進行計算:將文檔看成特征詞的集合,為每個特征詞分配唯一編碼;根據特征詞的編碼以及在文檔中的權重,通過相似哈希算法生成文檔的信息指紋(可比較的64位二進制編碼);文檔指紋完全相同的文檔,則認定為內容相同;指紋間不同的位數越少,則說明文檔內容越相似。文本虛詞的增減、語句位置的變換將不會影響近似文本的發現。

標簽: 輿情分析

相關閱讀

主站蜘蛛池模板: 亚洲区中文字幕 | 四虎娱乐 | 久久精品九九亚洲精品 | 免费人成网站在线观看欧美 | 欧美性猛片xxxxx免费中国 | 美女脱内衣内裤摸屁屁 | 日韩性活大片 | 久久亚洲中文字幕无码 | 国产精品高潮呻吟av久久动 | 筋肉雄汁gay雄汁外送网站 | 精品人妻无码区在线视频 | 两个人看的视频WWW在线高清 | 亚洲欧洲无卡二区视頻 | 久久久久久久黄色片 | 5c5c5c5c_午夜免费 | 成人黄色一级 | 寡妇张开腿让黑人捅爽 | 亚洲中文字幕无码天然素人在线 | 亚洲综合国产 | 久久久亚洲av成人网站 | 亚洲精品国产综合久久一线 | 啊灬啊灬啊灬快灬高潮少妇a片 | 久久婷婷成人综合色 | 人妻中文字系列无码专区 | 激情国产一区 | 久久国产一区 | 亚洲精品天堂久久久老牛 | 中文字幕在线日亚洲9 | 亚洲一二三四果冻传媒 | 手机中文字幕永久在线 | 91九色在线 | 日韩影院在线 | 欧美亚洲成人特黄一级三区在线观看 | 欧美一线高本道高清免费 | 精品三级在线观看 | 草在线免费观看 | 亚洲第一se情网站 | 男人扒开女人添高潮的视频嗯啊 | 人人妻人人澡人人爽欧美一区双 | 亚洲午夜无码片在线观看影院百度 | 国产真实乱对白精彩久久老熟妇女 |