6/28/2020

利用自然語言找尋專利前案(一)。

用機器來檢索前案。

https://hant-kb.kutu66.com/others/post_13649887

目前的AI可以做到「句子相似度」的計算,如上連結。
'this is a sentence'及'this is also sentence'的計算結果,高達0.915479828613的
近似度。

因此,如果要用機器幫忙找前案的話,可以先文用描述要檢索的裝置或方法,形成句子(或詞袋),然後用「句子相似度」的演算法,來找出近似的專利。word2vec是由google提出來,google專利資料庫的近似專利,應該也是用這個演算法計算出來的。

考慮到專利用語的多變化,(以下是我亂想的,沒有理論基礎)想要提高演算的精確度時
,選擇詞袋中的詞就很重要,可以考慮先對句子中的詞進行處理。舉例,可以考慮先把
下位詞更換成上位詞,或者把所有的近似詞換成相同的詞等,但這個需要自己整理詞庫。

因此,個人認為用機器幫忙找專利,是有機會的,但需要為不同的領域準備好自己的
詞庫。要用一般的詞庫應該很難達到實用的效果。

其他演算法。
https://reurl.cc/WdQkVx


【更新  20200629 】
https://reurl.cc/8GM9j7
上面有代碼,提供給有興趣玩的網友參考。只要更換sentance1及2的文字,就能算出相似度。
另外,還需要「GoogleNews」詞向量的檔案,下載地址,如下。
https://reurl.cc/xZM3NZ



另外,還有doc2vec,它是word2vec到 phrase-,sentence-的文件級別的擴展,如下所描述
http://cs.stanford.edu/~quocle/paragraph_vector.pdf

6/18/2020

專利說明書的元件符號擷取程式

專利說明書的元件符號擷取程式,下載連結在最下方。

點擊「winpatnum.exe」 後,出現如下圖。



然後,在左邊貼上說明書的內容,然後點選「元件符號」,隨後元件符號就會出現在右邊。演算法還不夠好,還是需要人工整理元件符號。

用python寫的,然後用pyinsteller編譯成執行檔,所以跑的慢要較久的時間,才會出現視窗。

https://github.com/ides13/patentapps/raw/master/winprefnum.rar


6/17/2020

Autohotkey的翻譯用小程式。


Autohotkey的翻譯用小程式。下載連結在最下方。

選取要翻譯的句子,先按左邊的Ctrl再按左邊的Alt後,這個小程式會幫忙將外文翻譯並轉換成中文。

例如,將「今日の天気はとても良いです」轉換成「今天的天氣非常好」。

這個小程式的運行動作為,自動連到 google 翻譯後,將中文翻譯結果傳到電腦的剪貼簿,最後在傳出貼上。

另外,可以自行改變翻譯的語言,以英文為例。

;Clipboard := GoogleTranslate(Clipboard, "auto", "en")

^,取消上面的分號後,再於翻譯成正體中文的程式碼的行前,加「;」儲存,重新執行,即可。

想保留原文時,可以在「SendInput, ^v 」前加「;」,如此中文會保留在剪貼簿中。最後,在於想要的位置,按Ctrl + V就能貼上翻譯後的中文。

沒有安裝autohotkey的人,可以下載執行檔執行,只是如此的話就沒有辨法自訂功能。


原碼:

https://github.com/ides13/patentapp/blob/master/G_translate%2020200615.ahk

執行檔。

https://github.com/ides13/patentapp/blob/master/G_translate_20200615.exe