(30 hackdays day 2) Diffbot – 问题来啦!(1)


挖掘机技术哪家强?严肃点,我们来认真讨论这个问题。
假设我们讨论的是哪家培训挖掘机技术最强。首先,我们得知道有哪些地方能够学到挖掘机技术。然后,我们要想个办法定义“强”。最后我们得能算出来结果。

挖掘机技术学校

要知道都有哪些学校教挖掘机,我能想到的就两个来源:技校的黄页,搜索结果。前者可能有专业的技校汇聚网站可以爬取到,后者可以用第三方的搜索服务获取。于是我Google了下“挖掘机技术培训学校列表”。发现前几条结果都是www.peixun360.com他家的,所以我决定先把这个网站的挖掘机学校列表爬下来。

Diffbot

Diffbot是一个帮助人们将网页数据转换为结构化信息(其实就是爬虫干的事儿)的在线服务。通过简单的点选网页上的信息,指定到对应的结构化信息。它就能帮你把一个网站的信息转换成一个结构化的API。换句话说就是一个普通用户也能爬京东,把某类产品的网页变成一个“excel”。

Diffbot的API基本都分为Automatic和Custom两种,前者不用做任何事儿,算法自动帮你提取信息,后者可以有更大的自由度。

Product API是Diffbot重要API之一,用处就是帮助你自动分析一个“产品”页面的信息。比如“潞城挖掘机精品班”(是的,我看到28913也惊了,但放心,后面不是连续的…)。扔给Diffbot以后就会分析出下面的信息。

img1

是不是挺整齐的了?这还是我完全没有控制的情况自动提取的结构信息。下面我们来用下Custom API,也就是指哪打哪那个。
img2

先创建一个Custom API的Rule。可以看到Diffbot提供的Product的基本信息已经有很多了,什么OFFER PRICE,REG. PRICE,SAVE AMT.,BRAND之类的。那我们来把品牌加上吧。

img3

img4

img5

可以看到这里挑选一个域数据的方式很直观,鼠标选择一个Div,Diffbot就会帮你把它赋值过去。这里的小问题是它前端代码对中文的支持还有bug。但Save以后数据是正常的中文。当我们定制了一个新Field以后,这个自定义的Product的Rule就创建好了。这个Custom API也就能正常提取同类网页数据啦。
然后我就想试试Bulk API和Crawlbot。前者可以让你输入一系列的URL,比如几家挖掘机学校的详情页URL列表,后者可以爬取一个网站,从而对某些符合规则的网页调用Custom API。但…但…丫是收费API,而且…而且…我交不起的300刀一个月…所以…所以…不是我偷懒~

好啦,这就是一个帮助SB也能爬网页的产品啦~(我得想别的办法拿到挖掘机学校列表了…)明天见…

发表评论

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  更改 )

Google+ photo

You are commenting using your Google+ account. Log Out /  更改 )

Twitter picture

You are commenting using your Twitter account. Log Out /  更改 )

Facebook photo

You are commenting using your Facebook account. Log Out /  更改 )

w

Connecting to %s

在WordPress.com的博客.

向上 ↑

%d 博主赞过: