Keeping a Diary Patently: 利用自然語言找尋專利前案（一）。

6/28/2020

利用自然語言找尋專利前案（一）。

用機器來檢索前案。

https://hant-kb.kutu66.com/others/post_13649887

目前的AI可以做到「句子相似度」的計算，如上連結。
'this is a sentence'及'this is also sentence'的計算結果，高達0.915479828613的
近似度。

因此，如果要用機器幫忙找前案的話，可以先文用描述要檢索的裝置或方法，形成句子（或詞袋），然後用「句子相似度」的演算法，來找出近似的專利。word2vec是由google提出來，google專利資料庫的近似專利，應該也是用這個演算法計算出來的。

考慮到專利用語的多變化，（以下是我亂想的，沒有理論基礎）想要提高演算的精確度時
，選擇詞袋中的詞就很重要，可以考慮先對句子中的詞進行處理。舉例，可以考慮先把
下位詞更換成上位詞，或者把所有的近似詞換成相同的詞等，但這個需要自己整理詞庫。

因此，個人認為用機器幫忙找專利，是有機會的，但需要為不同的領域準備好自己的
詞庫。要用一般的詞庫應該很難達到實用的效果。

其他演算法。
https://reurl.cc/WdQkVx

【更新 20200629 】
https://reurl.cc/8GM9j7
上面有代碼，提供給有興趣玩的網友參考。只要更換sentance1及2的文字，就能算出相似度。
另外，還需要「GoogleNews」詞向量的檔案，下載地址，如下。
https://reurl.cc/xZM3NZ

另外，還有doc2vec，它是word2vec到 phrase-，sentence-的文件級別的擴展，如下所描述
http://cs.stanford.edu/~quocle/paragraph_vector.pdf

沒有留言:

張貼留言