超链接演化

因为过去旅客在G2Rail订购过几十万条路线的车票,所以积累了几十万车站点到点的路线数据。而用这种数据可以生成无数不同的网页和超链接。一直觉得这个链接不太爽,所以今天利用周日把车站介绍的热门路线推荐迭代了几个版本。以法兰克福中央火车站(Frankfurt Hbf)为例。

最初版

这里已经列出了很多超链接,但问题是

  • 最短路程和价格信息其实相对不重要(后期会加到该热门路线单独的网页里面,而不是放在这里)
  • 链接的文本是“查询实时优惠”,同样的文本,增加了爬虫判断链接意义的难度,应该让超链接的文本能够有意义

这其实也是受了Roma2Rio的启发。

第二版 – 有意义的超链接

把原先的表格变成超链接。

下一步要解决的问题包括:

  • “法兰克福中央火车站 –> 莱比锡中央火车站”中间的–>让爬虫比较难理解,最后把它改成多语言,比如”Frankfurt Central to Lepzig Central”,”フランクフルト・アム・マインからライプツィヒ中央駅へ”, “法兰克福中央火车站 到莱比锡中央火车站”

所以就修改了链接模板,也同时调整了28国语言的翻译文本。

第三版 – 多语言超链接模板

下一步要解决的问题包括:

  • 对于车站采用双语种,这样增加了很多语种与源语言的映射

第四版 – 在超链接里展示双语

显示目标语言和本地语言,比如德国车站用德语,丹麦车站显示丹麦语。。。

下一步要解决的问题是

  • 链接太多,会把Google鄙视

第五版 – 控制链接数量

每个车站页面只展示20条(原先几百个)出发,20条到达的超链接。

考虑到有十万个车站,其实总数量也不会少。

突然又有一个新想法,为什么不从热门路线中随机抽取一部分链接呢?这样的话,每次爬虫过来都会是一个新网页。先跟专家确认一下。赶紧联系斈哥

第六版

以法兰克福中央火车站为例,现在会从到达该站的几百条常见路线中,取出最经常订的30条,然后打乱顺序,再取前20条。

Share