分类标签归档：信息抓取

python字符串格式化

93 views

1、% 格式化

 name = 'xiaoming'`
`age = '10'`

`test = '%s is %s years old' % (name, age)`
`print(test)`

`xiaoqing is 10 years old`

% 也支持字典形式的传递，如下：

test1 = 'Hello %(name)s,id=%(id)s' % {'id': 10, 'name': 'World'}
print(test1)

Hello World,id=10

如何在谷歌开发者工具中寻找元素的xpath路径

发表评论

673 views

如何在谷歌开发者工具中寻找元素的xpath路径?

关于这个问题，有不少同学比较疑惑，这里录了几个小视频请同学参考:

取总页数方法取总页数方法

http://i.hddly.cn/media/0jZaWtmKEF.mp4

取数据项目中的名称

http://i.hddly.cn/media/9eedQaRsuz.mp4

加载webdriver异常的问题

发表评论

764 views

原先脚本如下：

def __init__(self):
        self.browser = webdriver.Chrome()
        self.browser.set_page_load_timeout(30)

Error:

D:\app\python3\python.exe D:/demo/musics/__init__.py
2021-12-15 22:58:10 [scrapy.utils.log] INFO: Scrapy 2.5.1 started (bot: musics)
2021-12-15 22:58:10 [scrapy.utils.log] IN

Python SSL证书验证问题解决方案

发表评论

692 views

在requests访问https的站点时，如:

url = 'https://bigdata.hddly.cn/wp-content/plugins/captcha-code-authentication/captcha_code_file.php'
rqg = requests.get(url, headers=headers, proxies=proxies)

会报错:

raise SSLError(e, request=request) requests.exceptions.SSLError: HTTPSConnectionPool(host='bigdat

终端协议分析工具Fiddler

发表评论

632 views

原视频: 进入

想要Fiddler抓取移动端设备的数据包，其实很简单，先来说说移动设备怎么去访问网络，看了下面这张图，就明白了

可以看得出，移动端的数据包，都是要走wifi出去，所以我们可以把自己的电脑开启热点，将手机连上电脑，Fiddler开启代理后，让这些数据通过Fiddler，Fiddler就可以抓到这些包，然后发给路由器（如图）：

打开Wifi热点，让手机连上（我这里用的360wifi，其实随意一个都行）

打开Fidder，点击菜单栏中的 [Tools] –> [Fiddler Options]

点击 [Connections] ，设置代理端口是8888，勾选

服务端与客户端保持连接的两种方式

发表评论

675 views

服务端与客户端保持连接的两种方式

<EMBED src='https://haokan.baidu.com/v?vid=2634565104120722444&pd=pcshare' width=100% height=400px type=audio/mpeg loop='false'> </EMBED> 视频链接: 点击进入

Session方式

<EMBED src='https://haokan.baidu.com/v?vid=8229078867943883745&pd=pcshare' width=100% height

最流行编程语言排行榜动画演示（1965-2021）

发表评论

606 views

简单了解一下什么是Selenium

发表评论

637 views

网络信息抓取技术任务2.2使用Selenium抓取网页，那什么是Selenium呢，下面我们简单了解一下： [1]什么是Selenium

<div align=center> <EMBED src='

Python图像处理PIL各模块详细介绍

发表评论

630 views

前言

这篇文章主要介绍了Python图像处理PIL各模块详细介绍，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧

参考：

https://www.jb51.net/article/165539.htm

Image模块

Image模块是在Python PIL图像处理中常见的模块，对图像进行基础操作的功能基本都包含于此模块内。如open、save、conver、show…等功能。

open类

Image.open(file) ⇒ image Image.open(file, mode) ⇒ image 要从文件加载图像，使用

Python抓取图片的3种方式

发表评论

623 views

抓取图片的3种方式

方案一利用urlretrieve()函数链接到图片url 直接储存图片

urlretrieve是urllib库中的一个函数 urllib库是python的内置包，不需要下载安装 urllib包含了四个模块分别是： request：基本的http请求模块，用来模拟发送请求。 error：异常处理模块，捕获请求中的异常，然后进行重试或其他的操作以保证程序不会意外终止。 parse：一个根据模块，提供了如拆分、解析、合并等的许多URL处理方法。 robotparser：主要用来识别网站的robots.txt文件，然后判断哪些网站可以爬，哪些不能。

例1获取图片

# img_ur

1、% 格式化

如何在谷歌开发者工具中寻找元素的xpath路径?

取总页数方法取总页数方法

取数据项目中的名称

服务端与客户端保持连接的两种方式

Cookie方式

Session方式

前言

参考：

https://www.jb51.net/article/165539.htm

Image模块

open类

抓取图片的3种方式

方案一利用urlretrieve()函数链接到 图片url 直接储存图片

例1获取图片

方案一利用urlretrieve()函数链接到图片url 直接储存图片