最近不小心摸到一個很好玩的東西 就是 scws分詞的php套件
這個套件可以幫你把一句話或一篇文章做分詞斷句
例如:
陳凱歌並不是《無極》的唯一著作權人,一部電影的整體版權歸電影製片廠所有
它可以幫你分成
陳凱歌 並 不是 《 無極 》 的 唯一 著作權人 , 一 部 電影 的 整體 版權 歸 電影 製片廠 所有
這個東西拿來做分詞搜尋或是AI回話時 應該是相當的好用
而稍微的研究了一下 他的分詞底層技術是採用TF-IDF的權重公式在做的(你可以不懂他沒關係,系統會用就好)
而他的詞庫有將近30萬筆詞庫(至2015年 簡體中文) 他也有出繁體中文版的 不過詞彙似乎少不少就是
而你也可以自己加詞進去
參考文件
SCWS 中文分词v1.2.3 开源免费的中文分词系统
https://www.straysh.com/article/62
http://francs.lofter.com/post/80a04_552bf15