随着互联网信息爆炸式增长，越来越多的人希望将网络上的优质内容保存下来，方便离线阅读或长期收藏。Python凭借其丰富的库和简洁的语法，成为实现网页内容抓取、清洗并转换为电子书格式的利器。本文将详细介绍如何使用Python将网页内容转换为纯文本和EPUB电子书，涵盖网络技术开发及相关信息咨询的关键步骤。

一、环境准备与核心库介绍

在开始之前，需要确保已安装Python（建议3.7及以上版本）。核心库包括：

Requests：用于发送HTTP请求，获取网页原始HTML。
BeautifulSoup 或 lxml：用于解析HTML，提取所需内容。
html2text：将HTML转换为纯文本的便捷工具。
EbookLib：用于生成EPUB格式电子书。
Readability-lxml：可智能提取网页正文内容，去除广告等噪音。

安装命令：
`bash
pip install requests beautifulsoup4 html2text ebooklib readability-lxml
`

二、网页内容抓取与解析

第一步是获取目标网页的HTML内容。使用Requests库发送GET请求，并通过BeautifulSoup进行解析：

`python import requests from bs4 import BeautifulSoup

url = "https://example.com/article"
headers = {'User-Agent': 'Mozilla/5.0'}
response = requests.get(url, headers=headers)
html_content = response.content

soup = BeautifulSoup(html_content, 'html.parser')
`

对于结构复杂的网页，可使用readability-lxml智能提取正文：

from readability import Document
doc = Document(html_content)
clean_html = doc.summary()

三、转换为纯文本

提取到干净的HTML后，使用html2text库将其转换为易读的纯文本：

`python import html2text

h = html2text.HTML2Text()
h.ignorelinks = False # 是否忽略链接
plaintext = h.handle(clean_html)

with open('output.txt', 'w', encoding='utf-8') as f:
f.write(plain_text)
`

四、生成EPUB电子书

EPUB是一种开放的电子书标准，支持流式阅读。使用EbookLib库可以轻松创建EPUB文件：

`python from ebooklib import epub

创建EPUB书籍对象

book = epub.EpubBook()
book.setidentifier('id123456')
book.settitle('网页文章标题')
book.setlanguage('zh')
book.addauthor('作者名')

创建章节

c1 = epub.EpubHtml(title='正文', filename='chap01.xhtml', lang='zh')
c1.content = f'{clean_html}'

添加章节到书籍

book.additem(c1)
book.toc = (epub.Link('chap01.xhtml', '正文', 'intro'),)
book.spine = ['nav', c1]

添加导航文件

book.additem(epub.EpubNcx())
book.additem(epub.EpubNav())

生成EPUB文件

epub.write_epub('output.epub', book, {})
`

五、进阶技巧与信息咨询

批量处理：结合爬虫框架（如Scrapy）可批量抓取多个页面，并自动生成系列电子书。
样式优化：通过CSS为EPUB电子书添加自定义样式，提升阅读体验。
反爬虫应对：部分网站设有反爬机制，可通过设置请求头、使用代理IP或Selenium模拟浏览器访问来应对。
内容清洗：使用正则表达式或自定义规则进一步清理文本中的无关字符、广告语等。
自动化调度：将脚本部署至服务器，结合定时任务实现自动抓取与转换。

六、注意事项

尊重版权：仅抓取公开且允许转载的内容，避免用于商业用途。
遵守robots.txt：抓取前检查目标网站的robots.txt文件，尊重网站规则。
控制频率：避免高频请求对目标服务器造成压力。

###

通过Python实现网页内容转纯文本与EPUB电子书，不仅能够高效地保存网络信息，还能根据个人需求进行定制化处理。本攻略涵盖了从基础抓取到高级生成的完整流程，结合网络技术开发与信息咨询的要点，为开发者提供了实用指南。随着技术的不断演进，可进一步探索AI摘要、自动分类等智能功能，让知识管理更加便捷高效。