利用自然語言找尋專利,目前在研究利用自然語言找尋專利。
整理以下想做的事:
1、找出「一技術描述」與 「多個專利請求項1 」間的相似度,需要再重新paser美國專利。
2、找出「一技術描述」與 一份專利說明書中「多個段落」間的相似度。
第一是找有可能侵權的專利,第二是找說明書中有記載的前案。
3、學會訓練詞向量。
4、學會利用doc2vec來找出相似度。
5、待前述都完成後,再進入理論階段。重新設計新的檢索模式。
7/05/2020
利用自然語言找尋專利前案(二)。
分享一個“找出「一技術描述」與 「多個專利請求項1 」間的相似度”的程式。
https://reurl.cc/9EmGQn
1、要使用這支程式,建議安裝,anaconda python。並且,需要gensim 套件。
2、功能:找出「一個技術描述(sentance1)」,與 「patentlist 中各專利請求項1 」間的相似度。
3、此程式的使用方式如下:
#sentance1 指的是一個技術的描述,最簡單的方法就是一個發明的請求項的記載方式。
#patentlist 提供想要比對的美國專利書號碼,例如['US7654301B2', 'US7654300B2', 'US7654329B2']。
4、改變上述要點3中的變數sentance1及patentlist並執行後,會得到claim_similarity.txt的文件,打開該文件後,可以得到相似度的計算值,如最後所述。
5、結果:如果把一件專利的不同組的請求項,當作sentance1時,相似度會達0.9以上。因此,此方法有實用上的「可能性」,但實際上效果可能沒有很好,需要再優化。目前,我把它當作閱讀順序的排序,覺得滿好用的。
如果顯示0的值,表示沒有爬到該專利的內容。
與US5419973A間的相似度 = 0 -->沒有爬到該專利的內容
與US6111377A間的相似度 = 0
與US6139976A間的相似度 = 0
與US6410174B1間的相似度 = 0
與US7935439B2間的相似度 = 0.7107066750526427
與US7074155B2間的相似度 = 0.7974137131141663
與US7263240B2間的相似度 = 0.7750532627105713
與US7757929B2間的相似度 = 0.7196704377664795
與US7777529B2間的相似度 = 0.7253437776701355
註:參考了以下幾個程式。
google_patent_spider
https://pypi.org/project/google-patent-scraper/
pypatent
https://github.com/daneads/pypatent
patent_client
https://github.com/parkerhancock/patent_client
uspto-tools
https://github.com/jlroo/uspto
https://github.com/clicumu/uspto-tools
Exploring the Intuition Behind Doc2Vec for PyPatent¶
https://github.com/hclent/PyPatent/blob/master/intuition.ipynb
【更新 20200709 】
claimsim_20200708.py
1、需要pypatent的檔案,我要修正它,所以直接下載並修正檔名為「DanEadsPypatent」來使用,請同時下載該檔案。
2、本次是爬美國專利資料庫,已可以爬公開說明書和專利說明書。
3、本次修正,已可以計算整個說明書的段落的近似值,只是段落的編號與說明書編號不一樣。請用p = thispatent('US6924620B2').description[3]來查詢段落內容。最後,本程式的輸出結果為:claim_similarity.txt。
4、與前次版本不同,本次不會下載任何檔案,是以後修正的目標。
7/02/2020
Patent Scraper
Patent Scraper
google_patent_spider
pypatent
patent_client
https://github.com/parkerhancock/patent_client
patent_client的Getting Started
https://patent-client.readthedocs.io/en/latest/getting_started.html
EPO 的 Open Patent Services (OPS)
https://www.epo.org/searching-for-patents/data/web-services/ops.html#tab-1
註冊申請帳號後,可以取得存取權利。
patent_client的Getting Started
https://patent-client.readthedocs.io/en/latest/getting_started.html
EPO 的 Open Patent Services (OPS)
https://www.epo.org/searching-for-patents/data/web-services/ops.html#tab-1
註冊申請帳號後,可以取得存取權利。
patent_client的Generate Continuity Graphs,實在是太強大了。
https://github.com/google/patents-public-data
取出請求項的內容:「claim_text_extraction」。
要使用google時,需要註冊帳號,網址如下:
https://cloud.google.com/free/
https://stackoverflow.com/questions/15028166/python-module-for-searching-patent-databases-ie-uspto-or-epo
http://funginstitute.berkeley.edu/wp-content/uploads/2013/06/Extracting_and_Formatting.pdf
python-epo-ops-client has officially been release.【待研究】
uspto-opendata-python is a client library for accessing the USPTO Open Data APIs. It is written in Python.
Text Parsing in Python with US-Patent Data
Franta Polach - Exploring Patent Data with Python
https://github.com/ip-tools/patzilla
https://github.com/ip-tools/P2N
https://github.com/ip-tools/minesoft-patbase-client
https://github.com/ip-tools/P2N
https://github.com/ip-tools/minesoft-patbase-client
https://stackoverflow.com/questions/15028166/python-module-for-searching-patent-databases-ie-uspto-or-epo
http://funginstitute.berkeley.edu/wp-content/uploads/2013/06/Extracting_and_Formatting.pdf
訂閱:
文章 (Atom)