博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
一个采集邮箱的网络爬虫(听毕老师讲的)
阅读量:5242 次
发布时间:2019-06-14

本文共 2083 字,大约阅读时间需要 6 分钟。

public class NetSplider {/*** @param args* @throws IOException*/public static void main(String[] args) throws IOException {    /**    * 网络爬虫:根据一定的规则从网络源或者本地源寻找并挖掘与规则相匹配的数据 1,读取文件,通过本地文件或者网络url 2,匹配并挖掘数据    */    // 定义规则(正则表达式)    String regex = "\\w+@\\w+(\\.\\w+)+";    // List
listByLocal=getMailByLocal(regex); List
listByNet = getMailByNet(regex); PrintWriter pw=new PrintWriter((new FileWriter("G:\\workstation\\正则表达式\\src\\案例\\list.txt")),true); // BufferedWriter bw = new BufferedWriter(new FileWriter( // "G:\\workstation\\正则表达式\\src\\案例\\list.txt")); for (String mail : listByNet) { if(mail != null) { pw.println(mail); //pw.flush(); //bw.write(mail); } System.out.println(mail); }}// 通过给出的url挖掘数据private static List
getMailByNet(String regex) throws IOException { // 给出url,并定义URL对象 String str_url = "http://bbs.tianya.cn/post-enterprise-401802-1.shtml";// 在此输入url地址 URL url = new URL(str_url); // 打开url链接 URLConnection uc = url.openConnection(); // 获取并读取数据流 BufferedReader buffin = new BufferedReader(new InputStreamReader(uc.getInputStream())); // 获取功能,定义列表存储数据 Pattern p = Pattern.compile(regex); List
list = new ArrayList
(); String line = null; while ((line = buffin.readLine()) != null) { Matcher m = p.matcher(line); while (m.find()) { list.add(m.group()); } } // 关闭资源 buffin.close(); return list;}// 通过给出本地路径挖掘数据private static List
getMailByLocal(String regex) throws IOException { // 读取流定义并读取文件 BufferedReader buffin = new BufferedReader(new FileReader(""));// 在此输入本地文件名 String line = null; // 获取功能 Pattern p = Pattern.compile(regex); List
list = new ArrayList
(); while ((line = buffin.readLine()) != null) { Matcher m = p.matcher(line); while (m.find()) { list.add(m.group()); } } buffin.close(); return list; }}

根据本地和网络资源获得邮箱

转载于:https://www.cnblogs.com/jamsbwo/p/4109114.html

你可能感兴趣的文章
Oracle常见错误:ORA-06550、ORA-00911、ORA-02085
查看>>
抛出异常,程序照样报错,如果是全部抛出,就不会报错了
查看>>
BZOJ 4816
查看>>
【ORA错误大全】 ORA-19527
查看>>
sql_id VS hash_value
查看>>
AX客户端连接变化
查看>>
Java语言中的修饰符
查看>>
xshell设置使用
查看>>
Java 获取 文件md5校验码
查看>>
[转]编译hadoop
查看>>
vue 有关框架
查看>>
类 Array Arraylist List Hashtable Dictionary
查看>>
消息中间件的研究 (四)RabbitMQ、Kafka、RocketMQ消息中间件的对比及分析
查看>>
css3动画从底部向上升
查看>>
PPT全转通2.0发布
查看>>
Linux多线程程序设计------创建线程
查看>>
安装mysql时启动服务出错问题
查看>>
hibernate懒加载
查看>>
Arc082_F Sandglass
查看>>
python解释器安装
查看>>