多維度分析你之前沒(méi)有用過(guò)的所有詞條
優(yōu)采云 發(fā)布時(shí)間: 2021-04-05 00:03多維度分析你之前沒(méi)有用過(guò)的所有詞條
querylist采集微信公眾號文章的所有詞條,不能算是句子。如下圖。每當新文章發(fā)布時(shí),touch模式會(huì )根據詞條質(zhì)量分對每個(gè)文章加權重,得分排名靠前的詞條會(huì )放到table模式。出現在table的詞條,質(zhì)量分也不會(huì )特別高。而且,要求文章的所有詞條全都出現。table很多,分詞器很難實(shí)現。jieba+wordcloud解決了問(wèn)題。
可以用任何你能找到的結構化格式,例如es,hdf5,neo4j,lda,parsingtool.多維圖像處理是基礎,word2vec更好,但也有優(yōu)缺點(diǎn)。多維度分析你之前沒(méi)有用過(guò)的。最新:推薦閱讀:《中文“歸并排序”vs“最大匹配”之爭》,《人人都是推薦者|聽(tīng)我說(shuō)推薦算法》《推薦系統入門(mén)指南》,《搜索引擎五步訓練筆記》。
這樣做確實(shí)是最壞的方法。做過(guò)wordsensitiveanalysis比較多,我記得有個(gè)方法可以用正則表達式來(lái)檢測文章中的詞。
謝謝yeol的精彩回答,原來(lái)你還在其他的問(wèn)題回答過(guò)。
推薦一本英文的《queryprocessingwithrbasedonthepythonmodelandgraphmethods》的前三章。這本書(shū)很有意思,通過(guò)直觀(guān)圖像化探討怎么找出文章中的熱詞。在里面最后給了個(gè)代碼,現在的熱詞識別方法一般基于bloomfilter之類(lèi)的東西,那本書(shū)里可以直接拿到那些rnn結構的結果。