閒聊

scws-全文分詞檢索

最近不小心摸到一個很好玩的東西 就是 scws分詞的php套件

這個套件可以幫你把一句話或一篇文章做分詞斷句
例如:

陳凱歌並不是《無極》的唯一著作權人,一部電影的整體版權歸電影製片廠所有

它可以幫你分成

陳凱歌 並 不是 《 無極 》 的 唯一 著作權人 , 一 部 電影 的 整體 版權 歸 電影 製片廠 所有

這個東西拿來做分詞搜尋或是AI回話時 應該是相當的好用

而稍微的研究了一下 他的分詞底層技術是採用TF-IDF的權重公式在做的(你可以不懂他沒關係,系統會用就好)

而他的詞庫有將近30萬筆詞庫(至2015年 簡體中文) 他也有出繁體中文版的 不過詞彙似乎少不少就是

而你也可以自己加詞進去

參考文件
SCWS 中文分词v1.2.3 开源免费的中文分词系统
https://www.straysh.com/article/62
http://francs.lofter.com/post/80a04_552bf15

Be the First to comment.

Leave a Comment

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

(若看不到驗證碼,請重新整理網頁。)