分类标签归档:信息抓取

如何在谷歌开发者工具中寻找元素的xpath路径


如何在谷歌开发者工具中寻找元素的xpath路径?

关于这个问题,有不少同学比较疑惑,这里录了几个小视频请同学参考:

取总页数方法取总页数方法

http://i.hddly.cn/media/0jZaWtmKEF.mp4

取数据项目中的名称

http://i.hddly.cn/media/9eedQaRsuz.mp4

Read more

加载webdriver异常的问题


原先脚本如下

def __init__(self):
        self.browser = webdriver.Chrome()
        self.browser.set_page_load_timeout(30)

Error:

D:\app\python3\python.exe D:/demo/musics/__init__.py
2021-12-15 22:58:10 [scrapy.utils.log] INFO: Scrapy 2.5.1 started (bot: musics)
2021-12-15 22:58:10 [scrapy.utils.log] IN

Read more

Python SSL证书验证问题解决方案


在requests访问https的站点时,如:

url = 'https://bigdata.hddly.cn/wp-content/plugins/captcha-code-authentication/captcha_code_file.php'
rqg = requests.get(url, headers=headers, proxies=proxies)

会报错:

raise SSLError(e, request=request) requests.exceptions.SSLError: HTTPSConnectionPool(host='bigdat

Read more

终端协议分析工具Fiddler


原视频: 进入

想要Fiddler抓取移动端设备的数据包,其实很简单,先来说说移动设备怎么去访问网络,看了下面这张图,就明白了

可以看得出,移动端的数据包,都是要走wifi出去,所以我们可以把自己的电脑开启热点,将手机连上电脑,Fiddler开启代理后,让这些数据通过Fiddler,Fiddler就可以抓到这些包,然后发给路由器(如图):

  1. 打开Wifi热点,让手机连上(我这里用的360wifi,其实随意一个都行)

  1. 打开Fidder,点击菜单栏中的 [Tools] –> [Fiddler Options]

  1. 点击 [Connections] ,设置代理端口是8888, 勾选

Read more

服务端与客户端保持连接的两种方式


服务端与客户端保持连接的两种方式

<EMBED src='https://haokan.baidu.com/v?vid=2634565104120722444&pd=pcshare' width=100% height=400px type=audio/mpeg loop='false'> </EMBED> 视频链接: 点击进入

Session方式

<EMBED src='https://haokan.baidu.com/v?vid=8229078867943883745&pd=pcshare' width=100% height

Read more

简单了解一下什么是Selenium


网络信息抓取技术任务2.2使用Selenium抓取网页,那什么是Selenium呢,下面我们简单了解一下: [1]什么是Selenium

<div align=center> <EMBED src='https://haokan.baidu.com/v?vid=2836932434457847496&pd=pcshare' width=100% height=400px type=audio/mpeg loop='false'> </EMBED></div>

<div align=center> <EMBED src='

Read more

Python图像处理PIL各模块详细介绍


前言

这篇文章主要介绍了Python图像处理PIL各模块详细介绍,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧

参考:

https://www.jb51.net/article/165539.htm

Image模块

Image模块是在Python PIL图像处理中常见的模块,对图像进行基础操作的功能基本都包含于此模块内。如open、save、conver、show…等功能。

open类

Image.open(file) ⇒ image Image.open(file, mode) ⇒ image 要从文件加载图像,使用

Read more

Python抓取图片的3种方式


抓取图片的3种方式

方案一利用urlretrieve()函数链接到 图片url 直接储存图片

urlretrieve是urllib库中的一个函数 urllib库是python的内置包,不需要下载安装 urllib包含了四个模块分别是: request:基本的http请求模块,用来模拟发送请求。 error:异常处理模块,捕获请求中的异常,然后进行重试或其他的操作以保证程序不会意外终止。 parse:一个根据模块,提供了如拆分、解析、合并等的许多URL处理方法。 robotparser:主要用来识别网站的robots.txt文件,然后判断哪些网站可以爬,哪些不能。

例1获取图片

# img_ur

Read more