当前位置:首页 > 知识分享 > 正文内容

今日知识分享怎么去除pdf文件的水印文字

3年前 (2023-05-27)知识分享119

网上下载的 pdf 学习资料有一些会带有水印,非常影响阅读。比如下面的图片就是在 pdf 文件上截取出来的。

安装模块

PIL:Python Imaging Library 是 python 上非常强大的图像处理标准库,但是只能支持 python 2.7,于是就有志愿者在 PIL 的基础上创建了支持 python 3的 pillow,并加入了一些新的特性。

pip install pillow

pymupdf 可以用 python 访问扩展名为*.pdf、.xps、.oxps、.epub、.cbz或*.fb2的文件。还支持了许多流行的图像格式,包括多页TIFF图像。

pip install PyMuPDF

导入需要用到的模块

from PIL import Image
from itertools import product
import fitz
import os

获取图片的 RGB

pdf 去水印的原理和图片去水印的原理差不多,小编先从去除上面那张图片的水印开始。

学过计算机的小伙伴们都知道 ,计算机中用 RGB 代表红绿蓝,用 (255, 0, 0) 表示红色,(0, 255, 0) 表示绿色,(0, 0, 255) 表示蓝色,(255, 255, 255) 表示白色,(0, 0, 0) 表示黑色,去水印的原理就是将水印的颜色变成白色(255, 255, 255)。

首先获取图片宽和高,用 itertools 模块获取宽和高的笛卡尔积作为像素点。每个像素点的颜色都由 前三位的 RGB 和 第四位的 Alpha 通道构成。Alpha 通道不需要,只要 RGB 数据。

def remove_img():
    image_file = input("请输入图片地址:")

    img = Image.open(image_file)
    width, height = img.size

    for pos in product(range(width), range(height)):
        rgb = img.getpixel(pos)[:3]
        print(rgb)

图片去水印

用微信截图的方式查看水印像素点的 RGB。

可以看到水印的 RGB 是 (210, 210, 210),这里用 RGB 的和超过 620 就判定是水印点,此时将像素颜色替换为白色。最后保存图片。

rgb = img.getpixel(pos)[:3]
if(sum(rgb) >= 620):
    img.putpixel(pos, (255, 255, 255))

img.save('d:/qsy.png')

示例结果:

PDF 去水印

PDF 去水印的原理和图片去水印的原理大致相同,用 PyMuPDF 打开 pdf 文件后,将 pdf 的每一页都转换为图片 pixmap,pixmap 有它自己的 RGB,只需要将 pdf 水印中的 RGB 改为(255, 255, 255) 最后保存为图片。

def remove_pdf():
    page_num = 0
    pdf_file = input("请输入 pdf 地址:")
    pdf = fitz.open(pdf_file);
    for page in pdf:
        pixmap = page.get_pixmap()
        for pos in product(range(pixmap.width), range(pixmap.height)):
            rgb = pixmap.pixel(pos[0], pos[1])
            if(sum(rgb) >= 620):
                pixmap.set_pixel(pos[0], pos[1], (255, 255, 255))
        pixmap.pil_save(f"d:/pdf_images/{page_num}.png")
        print(f"第{page_num}水印去除完成")
        page_num = page_num + 1

示例结果:

图片转为 pdf

图片转 pdf 需要注意的是图片的排序,数字文件名必须先转换为 int 类型后排序。用 PyMuPDF 模块打开图片后将图片用 convertToPDF() 函数转成单页的 pdf。插入到新的 pdf 文件中。

def pic2pdf():
    pic_dir = input("请输入图片文件夹路径:")
    
    pdf = fitz.open()
    img_files = sorted(os.listdir(pic_dir),key=lambda x:int(str(x).split('.')[0]))
    for img in img_files:
        print(img)
        imgdoc = fitz.open(pic_dir + '/' + img)  
        pdfbytes = imgdoc.convertToPDF()   
        imgpdf = fitz.open("pdf", pdfbytes)
        pdf.insertPDF(imgpdf)       
    pdf.save("d:/demo.pdf")         
    pdf.close()

总结

pdf 和图片上恼人的水印终于可以在强大的 python 面前消失了。小伙伴们学会了吗?

扫描二维码推送至手机访问。

版权声明:本文由阿龙玩站网发布,如需转载请注明出处。

本文链接:https://www.longge2021.cn/zhideyikan/26321.html

分享给朋友:

“今日知识分享怎么去除pdf文件的水印文字” 的相关文章

笔记本电池省电小技巧视频,笔记本电池妙用

笔记本电池省电小技巧视频,笔记本电池妙用

笔记本电脑电池有哪些省电小技巧呢? 1 调低屏幕的亮度。同时,虽然ThinkPad笔记本电脑装备有键盘灯ThinkLight,但为了省电,最好只在黑暗的条件下才享用她的关怀。 2 当不使用无线接收装置时,把它关掉。 3 有些用户有事没事都爱打开CD或DVD放音乐,电池的电量也就随着音乐的播放悄悄地...

自己开机械加工厂,应该怎么找业务?

自己开机械加工厂,应该怎么找业务?

传统行业一般通过地图、独立、小程序和4种方法进行拓展客户。传统行业拓展渠道很难,即使有一小部分拓展成功的传统,也是一路跌跌撞撞被骗了无数次,兜兜转转绕了无数圈,才能拨开重重迷雾,真正建立起来网络获客渠道。一路上弯路很多,忽悠的人也很多,因为个人也是这样一路走过来的。过时的推广方法前几天忽然有人加好友...

溜肩和正常肩的区别图片(溜肩怎么矫正)

溜肩和正常肩的区别图片(溜肩怎么矫正)

之前的视频《这些动作溜肩就别练了》发出去之后,我激动了好半天,我觉得——我终于把溜肩的动作本质告诉大家了,我终于圆满了! 但是却收到了不少这样的评论: 也没说怎么练啊; 说了跟没说一样; 为了显摆自己专业说了一堆废话; …… (小红...

开淘宝店怎么找货源(淘宝怎么开网店货源怎么找)

开淘宝店怎么找货源(淘宝怎么开网店货源怎么找)

电商行业的发展极大的改变了我们的购物习惯,其中一部分的买家可从中看到了商机,纷纷选择在淘宝平台上面开店,但是开店是需要有货源的。那么淘宝开店怎么找货源?淘宝店铺货源怎么找?1.实 电商行业的发展极大的改变了我们的购物习惯,其中一部分的买家可从中看到了商机,纷纷选择在淘宝平台上面开店,但是开店是需要...

加盟店可靠吗(网上加盟店会不会被骗)

加盟店可靠吗(网上加盟店会不会被骗)

至于为什么加盟骗局加盟骗局这么说?这和加盟的大环境有很大的关系。加盟是由公司先创立实体店,进行营销,达到招商时限后。由公司发布广告吸引加盟商,加盟商考察招商公司后,和招商公司签署加 至于为什么加盟骗局加盟骗局这么说?这和加盟的大环境有很大的关系。加盟是由公司先创立实体店,进行营销,达到招商时限后。...

网络营销策略有哪些(推荐网络营销的5种策略)

网络营销策略有哪些(推荐网络营销的5种策略)

企业常用的网络营销策略有:充分利用百度平台,加强推广与网站运营的结合,配置合适的网络营销团队。网络营销一直在变化,网络营销策略也应与时俱进。继续保持有效策略,调整或放弃无效策略。那 企业常用的网络营销策略有:充分利用百度平台,加强推广与网站运营的结合,配置合适的网络营销团队。 网络营销一直在变化...

快手卖货平台怎么收费(快手小店卖一单扣多少钱)

快手卖货平台怎么收费(快手小店卖一单扣多少钱)

快手和抖音是现在发展的比较好的短视频平台,越来越多的商家们开始利用这些平台达到带货的目的,也有很多的达人愿意利用自己的名气来接广告获取佣金,快手直播带货平台怎么收费?一、快手直播带 快手和抖音是现在发展的比较好的短视频平台,越来越多的商家们开始利用这些平台达到带货的目的,也有很多的达人愿意利用自己...

找关键词的软件(抓取关键词的软件)

找关键词的软件(抓取关键词的软件)

大家知道在谷歌SEO工具中怎么样去挖掘关键词来选品,在这篇文章中,将给大家带来了常用的谷歌SEO工具挖掘关键词,具体内容看看下文吧!官网:ck139.com。一、GoogleKe 大家知道在谷歌SEO工具中怎么样去挖掘关键词来选品,在这篇文章中,将给大家带来了常用的谷歌SEO工具挖掘关键词,具...

电脑性能看哪些方面(怎么看一台电脑的性能好不好)

电脑性能看哪些方面(怎么看一台电脑的性能好不好)

很多消费者对电脑的知识不是很了解,然后对电脑的认知就是这个电脑运行速度快不快,如果电脑运行速度快的话,那么就觉得这台电脑的配置应该很高,还有就是电脑机箱的外观,如果机箱外观很酷炫的 很多消费者对电脑的知识不是很了解,然后对电脑的认知就是这个电脑运行速度快不快,如果电脑运行速度快的话,那么就觉得这台...

广陵是现在江苏省的哪个地方(扬州为什么叫广陵)

广陵是现在江苏省的哪个地方(扬州为什么叫广陵)

有人说扬州属于经济强的苏南,更多人说属于经济弱的苏北。如果以长江而论,当然属于苏北。但争来争去终于给扬州,甚至泰州、南通等地。找到一个当地人感觉有面子而苏北苏南地域人们又都认可的说 有人说扬州属于经济强的苏南,更多人说属于经济弱的苏北。如果以长江而论,当然属于苏北。但争来争去终于给扬州,甚至泰州、...

共享单车多少寸轮胎(哈罗单车尺寸是24还是26)

共享单车多少寸轮胎(哈罗单车尺寸是24还是26)

如果有人告诉你他要送辆车给你,中置引擎后轮驱动,360度全景大天窗……妹子你可千万别天真的以为是这样的车:因为它也有可能是以下这几款:这几日的长沙城风和日丽,一些耐不住好天气的妹子和初春的梧桐树新芽一样蠢蠢欲动。正可谓— 如果有人告诉你他要送辆车给你,中置引擎后轮驱动,360度全景大天窗……妹子你...

武汉公积金利率下调了吗2022最新(武汉公积金利率下调原来贷款也下调吗)

武汉公积金利率下调了吗2022最新(武汉公积金利率下调原来贷款也下调吗)

武汉公积金利率下调至3.1%可以说是难得一见了,因为武汉公积金利率3.25%保持了很多年,如今下调后,每个月少还50元对个人来说也是一项不错的福利政策,原来在还房贷的朋友们需要等明年1月1日再正式执行。武汉公积金利率下调 武汉公积金利率下调至3.1%可以说是难得一见了,因为武汉公积金利率3.25%...

为什么很少买奥迪a8(买奥迪a8可以干销售吗)

为什么很少买奥迪a8(买奥迪a8可以干销售吗)

奥迪a8这款车型价格并不便宜,主要是知名度不是很高,性价比也不高,所以并没有很多人去选择买奥迪a8。那么,买奥迪a8可以干销售吗?感兴趣的朋友们一起来看看久久派带来的详细介绍吧!为什么很少买奥迪a8如果你是擅长精打细算的 奥迪a8这款车型价格并不便宜,主要是知名度不是很高,性价比也不高,所以并没有...

全球防晒霜排行榜十强?(口碑最好十大防晒伞排名)

全球防晒霜排行榜十强?(口碑最好十大防晒伞排名)

口碑最好十大防晒伞排名 在导致皮肤老化的外源性因素中,紫外线是导致皮肤老化的最大原因,因此防晒霜更为重要。每个季节都要注意防晒霜。现在市场上有很多种防晒霜,那么哪种品牌的防晒霜最好?下面将列出世界十大防晒霜。名单上有什么? 全球防晒霜排行榜十强? Cosme Decorte多重防晒乳...

蒸馒头要用多长时间?(蒸馒头三层哪一层先熟)

蒸馒头要用多长时间?(蒸馒头三层哪一层先熟)

蒸馒头三层哪一层先熟 头蒸过程主要是物理变化。在加热馒头的过程中,面团内部的气泡也会受热膨胀。高温水蒸气通过多层蒸笼上升。当遇到冷蒸笼时,大量水蒸气液化并释放大量热量。从表面上看,上层蒸笼的馒头是先煮的。实际上,蒸笼层数太多,蒸馒头的师傅会把上层换到下层。这种倒笼的过程,即蒸到一半的时间...