通过Poi解析Excel文档

这是昨天在做文本处理时候遇到的问题。接着上一篇的爬虫神器,我把数据搞下来以后,发现了如下的状况:POJ1

同样的数据,每条数据的内容都是url+标题+正文,一共2w条左右。三种数据格式都是神器爬取完导出的,html格式的 11MB左右,txt格式 380MB左右 ,xlsx 23MB左右。

用J[……]

→Continue→