技术相关
登录12306的一个简单方法
0网上有流传一些方法,但一看就是技术人员才有能力操作的,不好。
这里写一篇适合大多数人的,如果文章里有一些东西你还不懂怎么操作的话,那大概属于超级小白了,我不是你老师,没义务图文并茂的教你。
1、调出你浏览器的书签栏(IE里叫收藏夹?)
2、把下一行的连接用鼠标选中,拖到书签栏里面
登录铁道部
如果这个让你感到费解,那么可以看一下这个:http://www.douban.com/service/bookmarklet。如果还不懂。。。那么你就是我说的超级小白了,你还是自救吧,别人救不了你
3、打开12306网站,用这个地址https://dynamic.12306.cn/otsweb/main.jsp (更多…)
没准儿您会对以下内容感兴趣:
PHP FedEx shipping rates calculator
0First of all, you need to register an account, after register, open https://www.fedex.com/wpor/web/jsp/drclinks.jsp?links=wss/develop.html to obtain test key.
And I strongly recommend you goto https://www.fedex.com/wpor/web/jsp/drclinks.jsp?links=wss/getstarted.html and download some resources, include code archive and documentation.
After decompress the archive, you may find the wsdl file named RateService_v10.wsdl
for development env, you should edit this file, find a line contains https, it maybe
https://gateway.fedex.com:443/web-services/rate
change [gateway] to [wsbeta]!
https://wsbeta.fedex.com:443/web-services/rate
没准儿您会对以下内容感兴趣:
读书:《分布式Java应用》
3话说我觉得书名叫《Java高级基础》更为贴切!好书一本!
很多人看中此书的原因可能缘于作者的实战经验(比如我会想看看有没有关于TFS相关的内容),但是失望了,因为书里讲具体事件基本没有。
这些应该会因为涉及公司商业因素之类的,然后没法往书里写。
虽然没有实例,但再复杂的系统,最基本的数据结构也就这么些嘛。所以,“道”在其中,此书还是值得读的。
从目录里的页码看篇幅,重点在3、4、5三章,我看完,最大的收获也是在这几章里面。讲解的足够细致,例子也不太长,很适合长时间捧着书看,偶尔打开IDE敲敲、跑跑、看看。 (更多…)
没准儿您会对以下内容感兴趣:
一个网络爬虫的项目总结—链接抽取部分
0在搞定了ActiveMQ的 性能/内存泄露 问题之后,我的重心转移到了网页链接提取这一块。
在详细说之前,需要说一下网络爬虫链接抽取的一个最基础原则:
为了避免对一个URL重复的访问,需要维护一个URL总库,对于不是超大型的应用而言,应该是一个独立的库。(没有接触过真实搜索引擎的实现,他们不大能是只有一个总库的)
这个库维护的是对于下载过或发现了的链接
那么,对于链接的抽取,主要就有以下任务:
- 从页面中抽取出链接【集合】
- 遍历链接集合,判断每一个链接是否在之前已经发现过了,或者下载过,近期不再会下载的。过滤掉一些链接
- 将剩下的链接存储入库
没准儿您会对以下内容感兴趣:
一个网络爬虫的项目总结—ActiveMQ部分
0项目还没完全完工,但是关于爬虫相关的部分已经不会再有什么更改了。
还会进行大改的,是用Lucene存储链接的对应模块,设计方案已经通过讨论,只剩下实现。
那么就到写项目总结的时间了。
这个爬虫经历过一次完全构架的重新选择:从基于Nutch的体系改为了自己写很多东西
之前,我对Nutch+Hadoop做了二次开发并把系统搭建好,但是Fetcher部分的性能不好搞。
Nutch的任务都是基于Hadoop的,然后Input和Output都严重依赖于HadoopIO。我在把主体代码写完后,有试着虚构一个假的RecordReader给Fetcher以启动它。但是只写了一个Demo就没往下写了。只凭第一感觉的话,大概是可以的。但是因为对Hadoop的不熟悉,而且时间也不足够,也就没往下再深究了。此时领导也已经决定抛弃Nutch,转用自己实现多数东西。 (更多…)
