7/08/2020

利用自然語言找尋專利前案(三)。

利用自然語言找尋專利,目前在研究利用自然語言找尋專利。

整理以下想做的事:
1、找出「一技術描述」與 「多個專利請求項1 」間的相似度,需要再重新paser美國專利。
2、找出「一技術描述」與 一份專利說明書中「多個段落」間的相似度。

第一是找有可能侵權的專利,第二是找說明書中有記載的前案。

3、學會訓練詞向量。
4、學會利用doc2vec來找出相似度。

5、待前述都完成後,再進入理論階段。重新設計新的檢索模式。

7/05/2020

利用自然語言找尋專利前案(二)。


分享一個“找出「一技術描述」與 「多個專利請求項1 」間的相似度”的程式。
https://reurl.cc/9EmGQn

1、要使用這支程式,建議安裝,anaconda python。並且,需要gensim 套件。
2、功能:找出「一個技術描述(sentance1)」,與 「patentlist 中各專利請求項1 」間的相似度。

3、此程式的使用方式如下:
#sentance1 指的是一個技術的描述,最簡單的方法就是一個發明的請求項的記載方式。
#patentlist 提供想要比對的美國專利書號碼,例如['US7654301B2', 'US7654300B2', 'US7654329B2']。

4、改變上述要點3中的變數sentance1及patentlist並執行後,會得到claim_similarity.txt的文件,打開該文件後,可以得到相似度的計算值,如最後所述。
5、結果:如果把一件專利的不同組的請求項,當作sentance1時,相似度會達0.9以上。因此,此方法有實用上的「可能性」,但實際上效果可能沒有很好,需要再優化。目前,我把它當作閱讀順序的排序,覺得滿好用的。

如果顯示0的值,表示沒有爬到該專利的內容。

與US5419973A間的相似度 = 0 -->沒有爬到該專利的內容
與US6111377A間的相似度 = 0
與US6139976A間的相似度 = 0
與US6410174B1間的相似度 = 0
與US7935439B2間的相似度 = 0.7107066750526427
與US7074155B2間的相似度 = 0.7974137131141663
與US7263240B2間的相似度 = 0.7750532627105713
與US7757929B2間的相似度 = 0.7196704377664795
與US7777529B2間的相似度 = 0.7253437776701355

註:參考了以下幾個程式。
google_patent_spider
https://pypi.org/project/google-patent-scraper/

pypatent
https://github.com/daneads/pypatent

patent_client
https://github.com/parkerhancock/patent_client

uspto-tools
https://github.com/jlroo/uspto
https://github.com/clicumu/uspto-tools

Exploring the Intuition Behind Doc2Vec for PyPatent¶
https://github.com/hclent/PyPatent/blob/master/intuition.ipynb


【更新 20200709 】

claimsim_20200708.py

1、需要pypatent的檔案,我要修正它,所以直接下載並修正檔名為「DanEadsPypatent」來使用,請同時下載該檔案。
2、本次是爬美國專利資料庫,已可以爬公開說明書和專利說明書。
3、本次修正,已可以計算整個說明書的段落的近似值,只是段落的編號與說明書編號不一樣。請用p = thispatent('US6924620B2').description[3]來查詢段落內容。最後,本程式的輸出結果為:claim_similarity.txt。
4、與前次版本不同,本次不會下載任何檔案,是以後修正的目標。

7/02/2020

Patent Scraper


Patent Scraper

google_patent_spider

pypatent
原來還有另一個,這一個在做自然語言的研究,還寫了abstract2vec:
https://github.com/hclent/PyPatent

patent_client
patent_client的Generate Continuity Graphs,實在是太強大了。




patents-public-data【待研究】
https://github.com/google/patents-public-data
取出請求項的內容:「claim_text_extraction」。
要使用google時,需要註冊帳號,網址如下:
https://cloud.google.com/free/

python-epo-ops-client has officially been release.【待研究】

uspto-opendata-python is a client library for accessing the USPTO Open Data APIs. It is written in Python.

Text Parsing in Python with US-Patent Data
Franta Polach - Exploring Patent Data with Python
https://github.com/ip-tools/patzilla
https://github.com/ip-tools/P2N
https://github.com/ip-tools/minesoft-patbase-client