6/28/2020

利用自然語言找尋專利前案(一)。

用機器來檢索前案。

https://hant-kb.kutu66.com/others/post_13649887

目前的AI可以做到「句子相似度」的計算,如上連結。
'this is a sentence'及'this is also sentence'的計算結果,高達0.915479828613的
近似度。

因此,如果要用機器幫忙找前案的話,可以先文用描述要檢索的裝置或方法,形成句子(或詞袋),然後用「句子相似度」的演算法,來找出近似的專利。word2vec是由google提出來,google專利資料庫的近似專利,應該也是用這個演算法計算出來的。

考慮到專利用語的多變化,(以下是我亂想的,沒有理論基礎)想要提高演算的精確度時
,選擇詞袋中的詞就很重要,可以考慮先對句子中的詞進行處理。舉例,可以考慮先把
下位詞更換成上位詞,或者把所有的近似詞換成相同的詞等,但這個需要自己整理詞庫。

因此,個人認為用機器幫忙找專利,是有機會的,但需要為不同的領域準備好自己的
詞庫。要用一般的詞庫應該很難達到實用的效果。

其他演算法。
https://reurl.cc/WdQkVx


【更新  20200629 】
https://reurl.cc/8GM9j7
上面有代碼,提供給有興趣玩的網友參考。只要更換sentance1及2的文字,就能算出相似度。
另外,還需要「GoogleNews」詞向量的檔案,下載地址,如下。
https://reurl.cc/xZM3NZ



另外,還有doc2vec,它是word2vec到 phrase-,sentence-的文件級別的擴展,如下所描述
http://cs.stanford.edu/~quocle/paragraph_vector.pdf

沒有留言: