python用requests獲取網(wǎng)頁(yè)源代碼為什么中文顯示錯(cuò)誤?
網(wǎng)友解答: 是不是中文亂碼的問題,你先用試試text和content,然后print打印一下信息看看。我以一下代碼例子說明一下:注:text返回Unicode類型數(shù)據(jù),content返回
是不是中文亂碼的問題,你先用試試text和content,然后print打印一下信息看看。我以一下代碼例子說明一下:
注:text返回Unicode類型數(shù)據(jù),content返回二進(jìn)制數(shù)據(jù)。如果出現(xiàn)亂碼的化,你可以下打印一下獲取頁(yè)面的編碼,看看代碼如下:
如果是不支持中文編碼的字符,可以自行設(shè)置一下,utf-8,gbk,gb2312等都可以,只要支持中文就行,代碼如下:
設(shè)置好字符編碼后,可以先打印一下頁(yè)面內(nèi)容,看是否還出現(xiàn)亂碼,代碼如下:
一般情況下,出現(xiàn)中文亂碼的頁(yè)面并不多,如果真的出現(xiàn)的化,你可以自行設(shè)置一下,應(yīng)該不會(huì)在出現(xiàn)亂碼的問題,我也是初學(xué)pythonp爬蟲的知識(shí),發(fā)表一下自己的見解,希望能對(duì)你有所幫助吧。
網(wǎng)友解答:Python3的話不需要自己decode
resp = requests.get(url)
如果resp.text亂碼的話,這樣:
resp.encoding = resp.apparent_encoding
再
print(resp.text)
可以參考我寫過的:https://www.toutiao.com/i6496773720189698573/