近期公司需要处理一批DOC文件,而在windows系统中,python没有模块能直接读取doc文件。需要先把doc文件批量转成docx文件,再读取操作。linux系统python有模块可直接读取doc文件,下次再分享。
首先安装win32com。
下载地址,https://github.com/mhammond/pywin32/releases。自行下载合适版本安装
转换代码如下
from win32com import client as wcw = wc.Dispatch('Word.Application')# 或用下面方法,使用启动独立的进程# w = wc.DispathchEx('Word.Application')doc = w.Documents.Open('E:/测试.doc')doc.SaveAs('E:/测试.docx', 16)# 参数16必须要写,否则报错
转换完成之后,有多种方法可以读取docx文件里面的内容及格式,例如使用python-docx。
本文由梁桂钊于2023-03-31发表在梁桂钊的博客,如有疑问,请联系我们。
本文链接:https://720ui.com/7535.html