pdf提取跨頁(yè)表格python 如何從Python中提取PDF文檔信息?
如何從Python中提取PDF文檔信息?好我們可以用Python能完成這項(xiàng)工作。下面就多多分享一下如何用Python解析個(gè)PDF文件,將其轉(zhuǎn)為一列關(guān)鍵字。設(shè)置:本教程我們建議使用的是Python3.6
如何從Python中提取PDF文檔信息?
好我們可以用Python能完成這項(xiàng)工作。下面就多多分享一下如何用Python解析個(gè)PDF文件,將其轉(zhuǎn)為一列關(guān)鍵字。
設(shè)置:
本教程我們建議使用的是Python3.6.3,當(dāng)然了在實(shí)際工作中你可以不不使用任何你喜歡的Python版本,只要它接受都用到的庫(kù)就行。
是需要按裝200元以?xún)?nèi)Python庫(kù):
PyPDF2(主要是用于將最簡(jiǎn)單基于文本的PDF文件轉(zhuǎn)為Python可讀的文本)
Textract(應(yīng)用于將PDF掃描文件轉(zhuǎn)為Python可讀的文本)
Nltk(主要用于清理短語(yǔ)、將短語(yǔ)轉(zhuǎn)為關(guān)鍵字)
是可以通過(guò)以下命令行安裝這些庫(kù):
pipinstallPyPDF2
condainstalltextract
pipinstallnltk
這樣的我們就安裝了解析PDF文件所需的庫(kù),你必須確保全你的PDF文件裝在你編寫(xiě)腳本所在的文件夾中。
啟動(dòng)編輯器,結(jié)束敲代碼吧!
目標(biāo):導(dǎo)入庫(kù)
第2步:無(wú)法讀取PDF文件
第5步:將文本轉(zhuǎn)換的為關(guān)鍵字
現(xiàn)在我們就將手中的PDF文件存放替列表,可以按自己的需要可以使用了。如果想讓PDF可搜索,或則電學(xué)計(jì)算大量文件通過(guò)聚類(lèi)分析,還也可以將我得到的列表保存在電子表格中。
用來(lái)Python實(shí)現(xiàn)程序PDF內(nèi)容其他提取包括循環(huán)遍歷內(nèi)容。
詳細(xì)實(shí)現(xiàn)參考我們甫義工作室寫(xiě)的文章如下鏈接:
《Python數(shù)據(jù)采集-多PDF文檔進(jìn)行關(guān)鍵字?jǐn)?shù)據(jù)檢索》
_articleamptimestamp1569413004ampreq賬號(hào)2019092520032301002607708102163DEEampgroup注冊(cè)id6581260685420790286
如何利用Python操作pdf文件?具體該如何讀寫(xiě)?
首先,要安裝好插件:pypdf
outputsPdfFileWriter()
#讀取pdf文件
outputs1PdfFileReader(file(/home/zilu/workspace/liuy/project/caifujutou/static/xml/test.pdf,rb))
((0))
outputStremopen(/home/zilu/workspace/liuy/project/caifujutou/static/xml/test.pdf,rw)
#寫(xiě)入結(jié)果pdf文件
output.write(outputStrem)
()
#你操作大多數(shù)文件類(lèi)型
#filename,文件路徑、名稱(chēng),如果有,盡量轉(zhuǎn)義或則開(kāi)頭加r,mode加載的模式,r加載,w讀取,,
fopen(/home/zilu/workspace/liuy/project/caifujutou/static/xml/test.xml,r)
#資源內(nèi)容并存儲(chǔ)在變量里
read()
print(read)
#自動(dòng)關(guān)閉文件,浪費(fèi)內(nèi)存
()
#加載pdf文件寫(xiě)入文件新的pdf文件
六花禁愛(ài)open(/home/zilu/workspace/liuy/project/caifujutou/static/xml/test.pdf,rb)
(0,0)
outputStremopen(/home/zilu/workspace/liuy/project/caifujutou/static/xml/test2.pdf,w)
outputStrem.write(())