通过Poi解析Excel文档

这是昨天在做文本处理时候遇到的问题。接着上一篇的爬虫神器,我把数据搞下来以后,发现了如下的状况:POJ1

同样的数据,每条数据的内容都是url+标题+正文,一共2w条左右。三种数据格式都是神器爬取完导出的,html格式的 11MB左右,txt格式 380MB左右 ,xlsx 23MB左右。

用J[……]

→Continue→

爬虫神器——八爪鱼

bzy        昨晚在实验室小伙伴的朋友圈里看到了这个东东,八爪鱼 。这是一款任何人都可以使用、任何网站都可以采集的强大的采集器(爬虫)。抓取的规则自己定义,抓到的数据很干净。晚上用下来感觉还不错,速度不算非常快(可能是实验室的网速问题,小伙伴自己家里2s一个网页)。软件还支持云爬取,目前免费。下载[……]

→Continue→