详解python 爬取12306验证码

接下来我将为你详细讲解“详解Python爬取12306验证码”的完整攻略。

1. 前言

在进行python爬虫时,验证码的破解常常是很重要的一步。而12306验证码的破解则是很多人首次接触验证码破解时的练手项目。本文将详细介绍如何使用Python来爬取12306的验证码。

2. 前置要求

在开始之前,需要满足以下前置要求:

  • 安装Python 2.X或3.X版本
  • 安装requests库
  • 安装Pillow库
  • 确定12306的验证码接口路径

3. 步骤

3.1 获取验证码图片

我们可以使用如下代码:

import requests
from PIL import Image

def get_captcha():
    url = 'https://kyfw.12306.cn/passport/captcha/captcha-image64'
    response = requests.get(url)
    img_base64 = response.json()['image']
    with open('captcha.png', 'wb') as f:
        f.write(img_base64.decode('base64'))
    img = Image.open('captcha.png')
    img.show()

if __name__ == '__main__':
    get_captcha()

在该代码中,我们首先使用requests库向12306的验证码接口请求验证码图片数据,并将返回的数据中‘image’字段保存为本地的验证码图片文件。接下来,我们使用Pillow库中的Image.open()方法打开该图片,并使用show()方法将其展示出来。

这里我使用的是requests库以及Pillow库,你也可以根据自己的需求来选择使用其他库实现同样的功能。

3.2 自动识别验证码

如果你并不想手动输入验证码,那么可以使用tesseract-OCR。tesseract-OCR作为一款OCR引擎,不仅支持识别验证码图形,还支持多种语言的识别。

安装tesseract-OCR后,我们可以在原有的代码中添加自动识别验证码的功能:

import requests
import pytesseract
from PIL import Image

def get_captcha_text():
    url = 'https://kyfw.12306.cn/passport/captcha/captcha-image64'
    response = requests.get(url)
    img_base64 = response.json()['image']
    with open('captcha.png', 'wb') as f:
        f.write(img_base64.decode('base64'))
    img = Image.open('captcha.png')
    text = pytesseract.image_to_string(img)
    return text

if __name__ == '__main__':
    captcha_text = get_captcha_text()
    print(captcha_text)

在该代码中,我们首先使用requests库向12306的验证码接口请求验证码图片数据,并将返回的数据中‘image’字段保存为本地的验证码图片文件。接下来,我们使用Pillow库中的Image.open()方法打开该图片,并使用pytesseract库中的image_to_string()方法自动识别验证码。

3.3 将识别结果提交到服务器

最后,我们可以将识别结果提交到服务器,以此完成登录过程。在该过程中,可能需要使用session等机制维持登录状态,具体操作可以参考Python的requests和cookies相关API。

示例一:

import requests
import pytesseract
from PIL import Image

def login(username, password):
    login_url = 'https://kyfw.12306.cn/otn/login/init'
    captcha_url = 'https://kyfw.12306.cn/passport/captcha/captcha-image64'
    captcha_check_url = 'https://kyfw.12306.cn/passport/captcha/captcha-check'
    headers = {
        'Host': 'kyfw.12306.cn',
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36',
        'Referer': 'https://kyfw.12306.cn/otn/login/init'
    }
    session = requests.session()
    session.get(login_url, headers=headers)
    captcha_text = get_captcha_text()
    data = {
        'answer': captcha_text,
        'login_site': 'E',
        'rand': 'sjrand'
    }
    response = session.post(captcha_check_url, data=data, headers=headers)
    if response.json()['result_code'] == '4':
        print('验证码校验通过!')
    else:
        print('验证码校验失败!')
        return False
    data = {
        'username': username,
        'password': password,
        'appid': 'otn'
    }
    response = session.post(login_url, data=data, headers=headers)
    if response.json()['result_code'] == 0:
        print('登录成功!')
        return True
    else:
        print('登录失败!')
        return False

def get_captcha_text():
    url = 'https://kyfw.12306.cn/passport/captcha/captcha-image64'
    response = requests.get(url)
    img_base64 = response.json()['image']
    with open('captcha.png', 'wb') as f:
        f.write(img_base64.decode('base64'))
    img = Image.open('captcha.png')
    text = pytesseract.image_to_string(img)
    return text

if __name__ == '__main__':
    login('your_username', 'your_password')

在该代码中,我们使用requests库创建了一个session对象,并分别请求了登录页面、验证码图片以及验证码校验接口。在验证码校验中,我们传递了自动识别出的结果,并通过检查返回的json数据中‘result_code’字段判断验证码是否识别正确。在成功校验验证码后,我们以同样的方式提交了用户名和密码,并最终判断了登录结果(通过判断返回的json数据中‘result_code’字段)。

示例二:

import requests
import pytesseract
from PIL import Image

session = requests.session()

def get_captcha_text():
    url = 'https://kyfw.12306.cn/passport/captcha/captcha-image64'
    response = session.get(url)
    img_base64 = response.json()['image']
    with open('captcha.png', 'wb') as f:
        f.write(img_base64.decode('base64'))
    img = Image.open('captcha.png')
    text = pytesseract.image_to_string(img)
    return text

def get_cookie():
    url = 'https://kyfw.12306.cn/passport/captcha/captcha-image64'
    response = session.get(url)
    cookie = response.cookies['RAIL_EXPIRATION']
    cookie = str(int(cookie) + 60 * 60 * 24 * 30)
    return cookie

def login(username, password):
    login_url = 'https://kyfw.12306.cn/otn/login/init'
    captcha_check_url = 'https://kyfw.12306.cn/passport/captcha/captcha-check'
    headers = {
        'Host': 'kyfw.12306.cn',
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36',
        'Referer': 'https://kyfw.12306.cn/otn/login/init'
    }

    captcha_text = get_captcha_text()
    data = {
        'answer': captcha_text,
        'login_site': 'E',
        'rand': 'sjrand'
    }
    response = session.post(captcha_check_url, data=data, headers=headers, cookies=session.cookies.get_dict())
    if response.json()['result_code'] == '4':
        print('验证码校验通过!')
    else:
        print('验证码校验失败!')
        return False

    cookie = get_cookie()
    headers.update({
        'Cookie': 'RAIL_EXPIRATION={};RAIL_DEVICEID=your_device_id'.format(cookie)
    })

    data = {
        'username': username,
        'password': password,
        'appid': 'otn'
    }
    response = session.post(login_url, data=data, headers=headers, cookies=session.cookies.get_dict())
    if response.json()['result_code'] == 0:
        print('登录成功!')
        return True
    else:
        print('登录失败!')
        return False

if __name__ == '__main__':
    login('your_username', 'your_password')

在该代码中,我们依然是先获取并识别验证码,但是在验证码校验与登录过程中增加了许多细节操作。为了避免被封IP,我们获取了cookie中的RAIL_EXPIRATION,将其增加了30天的有效期后放回cookie中。在请求登录接口时,我们还需要将获取到的cookie作为请求头的一部分传递。

4. 总结

以上便是详解Python爬取12306验证码的攻略完整过程和示例。在实际应用中,要注意识别精度、请求频率等问题,避免被封IP。

营销型网站