关于java爬虫和爬虫代理使用方式-电子产品世界论坛

这些小活动你都参加了吗？快来围观一下吧！>>

电子产品世界 » 论坛首页 » 嵌入式开发 » 软件与操作系统 » 关于java爬虫和爬虫代理使用方式

共3条 1/1 1 跳转至页

关于java爬虫和爬虫代理使用方式

laical

菜鸟

2021-06-29 17:10:52 打赏

只看楼主 1楼

现在大数据时代，爬虫工作者已经成为互联网数据公司的关键性职位，他们不但要精通数据抓取和分析，其次还要熟悉搜索引擎和相关检索算法，对各种算法都要有一定的了解。并做工作进程编排合理的布局。

爬虫有很多的方式，但Java爬虫是开发中应用最多的一种网页获取技术，速度和性能一流，在功能支持方面显得较为底层。而jsoup 是一款Java 的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。

针对爬虫行业，我们推出动态转发的高质量代理ip解决方案，完美的为爬虫行业解决痛点，动态转发使用简单，方便，不限制机器使用，更适合项目的快速启动。最简单的方式如下：

import java.io.IOException;
import java.net.Authenticator;
import java.net.InetSocketAddress;
import java.net.PasswordAuthentication;
import java.net.Proxy;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;


public class Demo
{
    // 代理验证信息
    final static String ProxyUser = "16MNWZCB";
    final static String ProxyPass = "365090";

    // 代理服务器(产品官网 www.16yun.cn)
    final static String ProxyHost = "t.16yun.cn";
    final static Integer ProxyPort = 31111;

    // 设置IP切换头
    final static String ProxyHeadKey = "Proxy-Tunnel";


    public static String getUrlProxyContent(String url)
    {
        Authenticator.setDefault(new Authenticator() {
            public PasswordAuthentication getPasswordAuthentication()
            {
                return new PasswordAuthentication(ProxyUser, ProxyPass.toCharArray());
            }
        });
        // 设置Proxy-Tunnel
        Random random = new Random();
        int tunnel = random.nextInt(10000);
        String ProxyHeadVal = String.valueOf(tunnel);

        Proxy proxy = new Proxy(Proxy.Type.HTTP, new InetSocketAddress(ProxyHost, ProxyPort));

        try
        {
            // 处理异常、其他参数
            Document doc = Jsoup.connect(url).timeout(3000).header(ProxyHeadKey, ProxyHeadVal).proxy(proxy).get();

            if(doc != null) {
                System.out.println(doc.body().html());
            }
        }
        catch (IOException e)
        {
            e.printStackTrace();
        }

        return null;
    }

    public static void main(String[] args) throws Exception
    {
        // 要访问的目标页面
        String targetUrl = "https://weibo.com/";


        getUrlProxyContent(targetUrl);
    }
}

清歌孤我

工程师

2021-07-19 23:44:59 打赏

2楼

方式总结的还是蛮不错的

同煮山川

工程师

2021-08-13 23:51:35 打赏

3楼

方式总结的还是蛮不错的

共3条 1/1 1 跳转至页

发新帖

每日签到

有奖活动
硬核工程师专属补给计划——填盲盒
“我踩过的那些坑”主题活动——第002期
【EEPW电子工程师创研计划】技术变现通道已开启~
发原创文章【每月瓜分千元赏金凭实力攒钱买好礼~】
【EEPW在线】E起听工程师的声音！
高校联络员开始招募啦！有惊喜！！
【工程师专属福利】每天30秒，积分轻松拿！EEPW宠粉打卡计划启动！
送您一块开发板，2025年“我要开发板活动”又开始了！

我要赚赏金打赏帖
【树莓派Zero2W】介绍、系统安装、人脸检测被打赏￥27元
【STM32F103ZET6】12:RTOS-详细介绍使用cubeMX软件初建RTOS配置过程被打赏￥28元
【分享开发笔记，赚取电动螺丝刀】MAX78000开发板读取摄像头后，使用串口通讯，上位机显示图像被打赏￥27元
【分享开发笔记，赚取电动螺丝刀】MAX78000开发板摄像头的读取，并在TFT屏幕上显示被打赏￥29元
【STM32F103ZET6】11:读取DS18B20数字温度传感器被打赏￥24元
Chaos-nano与FreeRtos对比，基于atmega328p平台被打赏￥28元
【S32K3XX】MPU 功能验证被打赏￥28元
Chaos-nano:专为低资源单片机设计的轻量级协作式异步操作系统（ATMEGA328P轻量级操作系统）—— 详细介绍被打赏￥16元
FPGA配置被打赏￥10元
Chaos-nano协作式异步操作系统：赋能MicrochipAVR8位单片机的革新之路被打赏￥15元

热门分类
STM32	MCU
通讯及无线技术	物联网技术
电子DIY	板卡试用
基础知识	软件与操作系统
我爱生活	小e食堂

关于java爬虫和爬虫代理使用方式

回复