5/19/2017

Google patent 爬蟲擷取專利資訊

一開始爬google patent時,發現被禁止無法捉取資料,原來是少了header。以下程式碼可以爬google patent獲取資料。

 

import urllib.request
from bs4 import BeautifulSoup

req = urllib.request.Request('http://www.google.st/patents/US7992995')
req.add_header('User-agent', 'Mozilla/5.0')
patent_html = urllib.request.urlopen(req)


soup = BeautifulSoup(patent_html, 'html.parser')

patentNumber = soup.find("span", { "class" : "patent-number" }).text
assigneeMetaTag = soup.find("meta", { "scheme" : "assignee"})
patentAssignee = assigneeMetaTag.attrs["content"]

print(patentNumber, patentAssignee)

 

更多訊息,可以參考以下Stackoverflow網址:

 

http://stackoverflow.com/questions/32637023/using-google-patent-api

5/17/2017

Patent-Management-Chart 更新

 

本來昨天決定要好好工作,停止寫code,但還是忍不住寫了。

 

https://github.com/ides13/Patent-Management-Chart/blob/master/Chart_plot_20170517.ipynb

 

更新的檔案,將發明人、專利權人、申請日、申請號等資料加入。

不過,圖表只有增加發明人和專利權人。

5/16/2017

Python 在專利管理及分析圖上的應用。

最近,突然迷上 Python 這個語言, 它有著眾多的程序庫可以使用,而且特別適合用在網頁的擷取與分析,讓我想到了專利管理圖的分析。

雖然,我沒有特別喜歡專利管理分析的各種圖,但是其中一種圖卻很實用,那就是「分類號分析圖」,upc , ipc, cpc 的長條圖,在進行專利檢索要決定發明的「分類號」時,很實用,尤其是對分類號還沒有很熟悉時。

於是,下定決心寫一個,相關程式碼,如下。
https://github.com/ides13/Patent-Management-Chart/blob/master/upc_plot.ipynb

建議在專利數量小時使用,雖然我試過一次擷取161件專利資料,也可行,如下,不過會跑滿久的,也許五分鐘吧。

https://github.com/ides13/Patent-Management-Chart/blob/master/upc_plot_len161.ipynb

該些資料,都是從USPTO的專利公報資料庫擷取,由於USPTO的資料庫會限制連線量,印象中應該是200筆,所以在使用前述程式時,要小心使用,不要一天連線太多次太多筆,不然會被USPTO的伺服器踢掉

另外,我其實也嘗試過,擷取專利權人、發明人、申請日、申請號等資料,想要做分析圖。但是,由於每一件專利的各種資料在table的欄位有可能不一樣,所以得到的資料不正確。需要正確資料時要用find、search等決定欄位,還要動腦寫code。但,反正也不實用,而且我也累了,超過目前的能力,加上目前的工作延誤太多,想回歸正常工作,故決定放棄,交給更有能力的人來做。