对每个人而言,真正的职责只有一个:找到自我。然后在心中坚守其一生,全心全意,永不停息。所有其它的路都是不完整的,是人的逃避方式,是对大众理想的懦弱回归,是随波逐流,是对内心的恐惧 ——赫尔曼·黑塞《德米安》
写在前面
对每个人而言,真正的职责只有一个:找到自我。然后在心中坚守其一生,全心全意,永不停息。所有其它的路都是不完整的,是人的逃避方式,是对大众理想的懦弱回归,是随波逐流,是对内心的恐惧 ——赫尔曼·黑塞《德米安》
采集原理 一般情况下可以通过 selenium
来批量获取图片,定位元素,获取URL ,逻辑相对简单:
部分页面可能存在 翻页,懒加载的情况,一般使用 selenium
基本可以解决(下文 Demo 只涉及了 懒加载场景 )
采集图片实质上是采集图片对应的uri
,图片 URI 一般有三种:
一种为返回可预览的图片,报文类型为 image/jpeg
,是一个 JPEG 图像文件,一般uri 后缀为图片名称后缀
一种为返回可以直接下载的图片,报文类型为 binary/octet-stream
,是一种二进制数据的 MIME
类型。
最后一种为直接返回 b64 编码的方式,
所以实际编码中需要考虑这三种情况,对于 b64 编码可以直接保存,对应 其他两两种 uri ,考虑转化字节或者 b64 编码下载
需要注意的问题
selenium
的版本问题,3 版本的和 4 版本 部分 方法差距较大,在实际编码中需要注意
图片版权问题,是否允许直接使用
考虑 IP 流量检测,如果同一IP 获取,会涉及大量的 IO 操作,考虑代理池
逻辑方面实际处理中,可能存在部分 广告图片,需要结合网站实际需求进行处理
如果对图片有要求,可以适当的添加一些图片大小,模糊度的的过滤条件
下面为一个简单的脚本,以百度图库为 Demo,在实际的生产项目中,可以使用 ASGI
相关支持异步的 Web 框架处理 ( 比如 tornado
等),基于事件循环,不会阻塞 网络IO,有很高的并发性。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 """ @File : dow_img_file.py @Time : 2023/11/15 20:53:40 @Author : Li Ruilong @Version : 1.0 @Contact : liruilonger@gmail.com @Desc : 批量图片采集 """ import requestsimport base64import pandas as pdimport timeimport ioimport uuidfrom selenium import webdriverfrom selenium.webdriver.common.by import Byfrom PIL import Image""" """ def get_img_url_base64 (url ): """ @Time : 2023/05/29 21:50:42 @Author : liruilonger@gmail.com @Version : 1.0 @Desc : 图片 url 解析为 base64 编码 Args: url Returns: base64_bytes """ response = requests.get(url) image_bytes = response.content base64_bytes = base64.b64encode(image_bytes) return base64_bytes.decode('utf-8' ) def save_base64_image (base64_data, output_file ): """ @Time : 2023/11/15 22:17:15 @Author : liruilonger@gmail.com @Version : 1.0 @Desc : 保存 b64 编码为 图片 """ format , data = base64_data.split(";base64," ) image_format = format .split("/" )[-1 ] image_data = base64.b64decode(data) image = Image.open (io.BytesIO(image_data)) image = image.convert("RGB" ) image.save(output_file, image_format) def get_img_url_byte (url ): """ @Time : 2023/10/15 23:49:10 @Author : liruilonger@gmail.com @Version : 1.0 @Desc : 图片 url 解析为 字节 """ response = requests.get(url) image_bytes = response.content return image_bytes driver = webdriver.Chrome() driver.get('https://image.baidu.com/' ) driver.find_element(By.XPATH, "//input[@id='kw']" ).send_keys("K8s" ) time.sleep(3 ) driver.find_element(By.XPATH, "//input[@class='s_newBtn']" ).click() time.sleep(5 ) for page in range (0 ,2 ): driver.execute_script("window.scrollTo(0, document.body.scrollHeight)" ) time.sleep(2 ) driver.execute_script("window.scrollTo(0, document.body.scrollHeight)" ) time.sleep(2 ) driver.execute_script("window.scrollTo(0, document.body.scrollHeight)" ) time.sleep(3 ) img_elements = driver.find_elements(By.TAG_NAME,'img' ) time.sleep(1 ) imgs = [] data = { "URI" :[], } for img_element in img_elements: img_id = img_element.get_attribute('id' ) img_src = img_element.get_attribute('src' ) if img_src is not None and len (img_src) > 10 : imgs.append((img_id,img_src)) data['URI' ].append(img_src) df = pd.DataFrame(data) file_name = "img_url" df.to_csv(f'{file_name} .csv' , index=False ) for img in imgs: if 'base64' in img[1 ]: save_base64_image(img[1 ],f"{str (uuid.uuid4()).replace('-' , '' )} .jpg" ) else : image_bytes = get_img_url_byte(img[1 ]) image = Image.open (io.BytesIO(image_bytes)) image = image.convert("RGB" ) image.save(f"{str (uuid.uuid4()).replace('-' , '' )} .jpg" )
测试结果 下载图片
保存的 图片 URI
© 2018-2023 liruilonger@gmail.com , All rights reserved. 保持署名-非商用-相同方式共享(CC BY-NC-SA 4.0)