偽原創(chuàng )相似度查詢(xún)( 【源碼目錄詳解】詞庫Key的詞組及詞組(二))
優(yōu)采云 發(fā)布時(shí)間: 2022-01-05 07:01偽原創(chuàng )相似度查詢(xún)(
【源碼目錄詳解】詞庫Key的詞組及詞組(二))
詳細源碼目錄
language-ai
|- src/main
| |- java java源碼所在目錄
| |- com.chenxin
| |- auth 百度AI授權認證模塊
| |- base 基礎公共抽象模塊
| |- config 項目所有自定義配置模塊
| |- controller 這個(gè)不用多說(shuō)
| |- exception 全局異常與自定義一次模塊
| |- model 項目所有使用的數據模型, dto,vo,bo等
| |- service 業(yè)務(wù)模塊
| |- util 工具模塊
| |- auth 授權認證模塊
| |- consts 常量類(lèi)
| |- http http相關(guān)
| |- nlp NLP同義詞庫加載工具
| |- system 系統相關(guān)
| |- CommonEnum.java 統一信息處理枚舉類(lèi)
|
| |- AiApplication.java 主啟動(dòng)類(lèi)
|
|- src/test/java
|- com.chenxin 相關(guān)測試代碼, 經(jīng)驗證, 若idea版本太低將會(huì )導致該單元測試無(wú)法使用
其他自行查看源碼, 不一一概述
關(guān)于詞庫擴展詞庫
如果你想要更準確的計算和替換,你需要一個(gè)非常準確和龐大的詞庫,這個(gè)詞庫可以自己慢慢完成
只需將詞典添加到文件resource/res/word.txt中,按照格式添加,然后調用初始化redis接口即可。
初始化redis接口/ai/command/initRedis
論詞典中單詞的重復
這個(gè)不用擔心,作者在這方面做了很多優(yōu)化。鍵值Key相同的詞組會(huì )全部存儲在redis中,以Key0、Key1、
查詢(xún)時(shí)會(huì )找出所有具有相同key的詞組,并進(jìn)行去重,然后進(jìn)行其他操作,計算詞義的相似度等等。同樣的Key,為了提高
查詢(xún)效率,默認選擇前20組key相同的!
技術(shù)圖集
本項目整合了多個(gè)優(yōu)秀的NLP項目,共同使用。分詞采用百度AI自然語(yǔ)言處理技術(shù)的詞義分析技術(shù),詞義相似度
使用HanLP項目計算同義詞的距離!
自然語(yǔ)言處理技術(shù)(百度AI提供技術(shù)支持) 自然語(yǔ)言處理(hanLP提供技術(shù)支持)
HanLP 是由一系列模型和算法組成的 NLP 工具包。目標是普及自然語(yǔ)言處理在生產(chǎn)環(huán)境中的應用。
同義詞詞庫技術(shù)架構后端前端
本項目的頁(yè)面只是作為測試使用,以后會(huì )構建一個(gè)完整的產(chǎn)品網(wǎng)站。
關(guān)于作者的問(wèn)題和優(yōu)化
熱衷于人工智能、分布式微服務(wù)、Web應用、大數據等領(lǐng)域。工作室:1024代碼工作室,有需要可以聯(lián)系作者,也可以交流。
郵件:
其他
為什么要使用多個(gè) NLP 項目?原因是我本來(lái)想用百度AI來(lái)完成整個(gè)項目。但由于百度自然語(yǔ)言處理API
對于普通用戶(hù)來(lái)說(shuō),有通話(huà)次數限制,需要超額收費。因此,相對大量數據的處理將由 HanLP 項目處理。減少數據量
百度的分詞將由百度AI處理。