python讀取docx的內(nèi)容 python-docx為什么不支持doc格式?
python-docx為什么不支持doc格式?Docx是一種開放格式。它本質(zhì)上是一個(gè)zip文件,可以用解壓軟件把它解壓到一個(gè)目錄中,包括幾個(gè)目錄,內(nèi)置圖片,所有的東西都在相應(yīng)的目錄中。文本的內(nèi)容存儲(chǔ)在
python-docx為什么不支持doc格式?
Docx是一種開放格式。它本質(zhì)上是一個(gè)zip文件,可以用解壓軟件把它解壓到一個(gè)目錄中,包括幾個(gè)目錄,內(nèi)置圖片,所有的東西都在相應(yīng)的目錄中。文本的內(nèi)容存儲(chǔ)在XML中,因此用Python解析它相對(duì)容易。
Doc是早期生成的文件,已關(guān)閉。一般來說,類似的軟件如OpenOffice或WPS會(huì)對(duì)格式進(jìn)行解碼和支持,但不能保證完全支持。這比docx困難得多。
對(duì)于該庫的開發(fā)人員,我認(rèn)為他沒有心思或需要做這樣的事情。
如果需要讀取doc文件,可以使用win32com模塊將doc轉(zhuǎn)換為docx,然后使用python_uux讀取內(nèi)容。