c語言怎么把csv文件變成數(shù)組如何使用Python Pandas模塊讀取各類型文件？

2023-06-26

3864

如何使用Python Pandas模塊讀取各類型文件？Python的pandas庫是使Python下一界應用于數(shù)據(jù)分析的出眾編程語言的一件事。Pandas使導入，分析和可視化數(shù)據(jù)變的越來越太容易。它建

如何使用Python Pandas模塊讀取各類型文件？

Python的pandas庫是使Python下一界應用于數(shù)據(jù)分析的出眾編程語言的一件事。Pandas使導入，分析和可視化數(shù)據(jù)變的越來越太容易。它建立在NumPy和matplotlib之類的軟件包的基礎上，使您可以方便啊地通過大部分數(shù)據(jù)分析和可視化工作。

在此Python數(shù)據(jù)科學教程中，我們將可以使用EricGrinstein破霸體的數(shù)據(jù)，在用Pandas分析不知從何而來流行的視頻游戲評論網(wǎng)站IGN的視頻游戲評論。哪個主機最終勝利了“控制臺大戰(zhàn)”(就游戲的審查而言)?該數(shù)據(jù)集將解決我們找出答案。

當我們分析視頻游戲評論時，我們將了解重要的Pandas概念，或者索引。您可以不再參與開去，并在我們的許多其他Python教程之一中或注冊PythonPandas課程來所了解有關(guān)Python和Pandas的更多信息。我們的許多其他數(shù)據(jù)科學課程也都建議使用Pandas。

謹記在心再看看，本教程建議使用Python3.5編寫，并在用JupyterNotebook最終形成。您可能會在用的是Python，pandas和Jupyter的更新版本，但而應該是基本上相同。

用Pandas導入數(shù)據(jù)

如果不是您正在不使用本教程，則是需要可以下載數(shù)據(jù)集，您也可以在此處參與不能操作。

我們將采取的措施的不過在此之前是讀取數(shù)據(jù)。數(shù)據(jù)以逗號互相連通的值或csv文件存儲，其中每一行用換行分隔開來，每列用逗號(,)分隔。這是ign.csv文件的前幾行：

如您在上方看到的，文件中的每一行代表一個游戲，該游戲也過IGN審查。這些列包涵或是該游戲的信息：

1)score_phrase—IGN該如何用一個詞用來形容游戲。這鏈接到它收到消息的分數(shù)。

2)title-游戲名稱。

3)url—您可以不在其中一欄求下載評論的URL。

4)platform-審查游戲的平臺(PC，PS4等)。

5)score—游戲的內(nèi)線得分，從1.0到10.0。

6)genre—游戲類型。

7)editors_choice-N要是游戲并非編輯選擇的Y話，這樣是。這與得分息息相關(guān)。

8)release_year-游戲先發(fā)布的年份。

9)release_month-游戲公告的月份。

10)release_day-游戲先發(fā)布的那天。

還有一個前導列，其中中有行索引值。我們這個可以放心吧地忽略此列，但稍候?qū)⑸钊虢涣髂男┧饕怠?/p>

是為在Python和pandas中比較有效地全面處理數(shù)據(jù)，我們不需要將csv文件讀取到PandasDataFrame中。DataFrame是它表示和去處理表格數(shù)據(jù)的一種，表格數(shù)據(jù)是表格形式的數(shù)據(jù)，.例如電子表格。表格數(shù)據(jù)更具行和列的格式，看上去像我們的csv文件差不多，可是如果我們也可以將其作為表格欄里點，則對我們更易于泛讀和排序。

是為讀取數(shù)據(jù)數(shù)據(jù)，我們是需要使用_csv函數(shù)。此函數(shù)將接收一個csv文件并前往一個DataFrame。以下代碼將：

a.文件導入pandas庫。我們將其修改文件名為，pd以便于慢了地鍵入。這是數(shù)據(jù)分析和數(shù)據(jù)科學中的標準約定，您偶爾會會注意到導入的Pandas就像pd其他人的代碼一般。

b.讀ign.csv入一個DataFrame，并將結(jié)果未分配給一個名為的新變量，reviews盡快我們可以reviews用處引用我們的數(shù)據(jù)。

讀完后DataFrame后，以更直觀的去看看我們所完成任務的內(nèi)容將很有幫助。Pandas比較方便地為我們能提供了兩種方法，是可以快速地將數(shù)據(jù)打印到表中。這些功能是：

1)DataFrame.head()—可以打印DataFrame的前N行，其中N是您以及參數(shù)訊息傳遞給函數(shù)的數(shù)字，即DataFrame.head(7)。如果沒有不傳達任何參數(shù)，則缺省設置為5。

2)DataFrame.tail()—打印DataFrame的后來N行。同樣，默認值為5。

我們將可以使用該head方法一欄其中的內(nèi)容reviews：

我們還可以不ftp訪問屬性，以查找以下行reviews：

如我們所見，所有內(nèi)容均已正確讀取文件-我們有18,625行和11列。

與的的的NumPy這樣的Python軟件包而言，使用Pandas的一大優(yōu)勢是Pandas容許我們強大具高相同數(shù)據(jù)類型的列。在我們的數(shù)據(jù)集中在一起，reviews我們有存儲浮點值(如)score，字符串值(如score_phrase)和整數(shù)(如)的列release_year，所以在此處建議使用NumPy會很困難，但Pandas和Python也可以非常好地如何處理它。

現(xiàn)在我們早正確的地讀取文件了數(shù)據(jù)，讓我們正在成立索引reviews以獲取所需的行和列。

用Pandas索引DataFrames

之前，我們使用了該head方法來打印出來的第一5行reviews。我們是可以使用方法能完成雖然的事情。該iloc方法不允許我們按位置檢索系統(tǒng)行和列。這一點，我們是需要委托所需行的位置包括所需列的位置。下面的代碼將reviews.head()你選擇行0到5，包括數(shù)據(jù)集中在一起的所有列來不能復制我們的結(jié)果：

讓我們更深入地去研究我們的代碼：我們指定你了打算的rows0:5。這意味著我們打算從position0到(但不除開)position的行5。

第一行被其實是在位置0，所以選擇行0:5給了我們行的位置0，1，2，3，和4。我們也是需要所有列，而且不使用快捷來你選擇它們。它的工作是這樣的：如果沒有我們不比較喜歡第一個位置值，例如:5，那是假設我們的意思0。如果不是我們看出了那一個位置值(如)0:，則根據(jù)定義我們是指DataFrame中的最后一行或之后一列。我們不需要所有列，并且只指定了一個冒號(:)，沒有任何位置。這使我們的列從0到之后一列。以下是一些索引示例在內(nèi)結(jié)果：

1)[:5,:]—第一5行，和這些行的所有列。

2)[:,:]—整個DataFrame。

3)[5:,5:]—從位置5正在的行，從位置結(jié)束的列5。

4)[:,0]—第一列，以及該列的所有行。

5)[9,:]—第十行，和瀘州銀行的所有列。

按位置索引與NumPy索引的很有幾分相似。要是您想清楚更多信息，這個可以寫作我們的NumPy教程。現(xiàn)在我們明白了了該如何按位置索引，讓我們刪除掉第一列，該列沒有任何用處的信息：

在Pandas中可以使用標簽在Python中建立索引

呢既然我們很清楚該如何按位置檢索行和列，這樣值得去愛去研究在用DataFrames的另一種主要注意方法，即按標簽檢索到行和列。與NumPy比起，Pandas的要注意優(yōu)勢本質(zhì)，每一列和每一行都是一個標簽。也可以如何處理列的位置，但很難跟蹤哪個數(shù)字按于哪個列。

我們也可以使用方法處理標簽，該方法允許我們可以使用標簽而不是位置參與索引。我們這個可以reviews建議使用以上loc方法總是顯示前五行：

上面的內(nèi)容只不過與完全沒有太大的不同[0:5,:]。這是是因為盡管行標簽可以常規(guī)任何值，但我們的行標簽與位置完全匹配。您是可以在上方表格的最左側(cè)看見了行標簽(它們以粗體總是顯示)。您還可以通過ftp連接DataFrame的index屬性來一欄它們。我們將沒顯示的行索引reviews：

Int64Index([0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99,...],dtypeint64)

不過，索引不一定會老是與位置看操作。在下面的代碼單元中，我們將：

a.獲取行10至行20的reviews，并分配結(jié)果some_reviews。

b.沒顯示的第一5行some_reviews。

如本所示，在中some_reviews，行索引可以追溯，10結(jié)束了于20。并且，嘗試loc使用小于等于10或大于的數(shù)字20將可能導致錯誤：

some_reviews.loc[9:21,:]

通常而言，在可以使用數(shù)據(jù)時，列標簽是可以使工作變得更加十分輕松。我們也可以在loc方法中指定你列標簽，以按標簽而不是按位置數(shù)據(jù)庫檢索列。

我們還這個可以是從傳入列表來兩次指定你多個列：

Pandas系列對象

我們可以幾種差別的在Pandas中檢索系統(tǒng)單個列。到目前為止，我們早看見了了兩種語法：

1)[:,1]—將檢索系統(tǒng)第二列。

2)reviews.loc[:,score_phrase]—還將檢索系統(tǒng)第二列。

另外第三種甚至連更太容易的方法來檢索整列。我們這個可以在方括號中重新指定列名稱，或者建議使用字典：

我們還可以按照100元以內(nèi)方法建議使用列列表：

當我們檢索單個列時，實際上是在檢索數(shù)據(jù)庫Pandas Series對象。DataFrame存儲表格數(shù)據(jù)，而Series存儲數(shù)據(jù)的單列或單行。

我們可以不驗證單個列是否是為系列：

我們可以手動修改系列以好些地所了解其工作原理。要修改一個Series，我們在構(gòu)造器它時將一個列表或NumPy數(shù)組傳遞給Series對象：

系列可以不真包含任何類型的數(shù)據(jù)，除開水的混合物類型。在這里，我們修改一個包含字符串對象的系列：

在Pandas中創(chuàng)建角色一個DataFrame

我們可以是從將多個Series傳遞到DataFrame類中來修改DataFrame。在這里，我們傳出剛剛創(chuàng)建家族的兩個Series對象，

s1才是第一行，s2作為第二行：

我們還是可以不使用列表列表能夠完成雖然的事情。每個內(nèi)部列表在結(jié)果DataFrame中被更視一行：

我們可以在修改DataFrame時更改列標簽：

在內(nèi)行標簽(索引)：

還請再注意，不不需要蜷進和另外的行。我們也以這種編譯程序了代碼，以使其更很易解析，但是您你經(jīng)常會遇見將它們所有的書寫一行的情況?；蛘?，200元以內(nèi)代碼將產(chǎn)生與我們在本段上方的表中看見的結(jié)果全部是一樣的的結(jié)果：

無論如何都，添加標簽后，便可以不使用它們對DataFrame通過索引：

columns如果將字典傳信給DataFrame構(gòu)造函數(shù)，則是可以跳過委托關(guān)鍵字參數(shù)的操作。這將自動出現(xiàn)設置里列名稱：

PandasDataFrame方法

如前所述，scikit-learnDataFrame中的每一列是Series對象：

我們這個可以在Series對象上調(diào)用與在DataFrame上是可以調(diào)用的大多數(shù)同一的方法，除開head：

PandasSeries和DataFrames還更具其他使換算更很簡單方法。的或，我們也可以使用方法來直接輸入Series的均值：

我們還這個可以內(nèi)部函數(shù)類似的方法，該方法設置成情況下將直接輸入DataFrame中每個數(shù)字列的平均值：

我們可以不可以修改axis關(guān)鍵字參數(shù)以mean計算每行或每列的平均值。默認情況下，axis＝0，并將計算出每列的平均值。我們還也可以將其設置中1為可以計算每行的平均值。請注意，這只會計算每一行中數(shù)值的平均值：

(axis1)

0510.500

1510.500

2510.375

3510.125

4510.125

5509.750

6508.750

7510.250

8508.750

9509.750

10509.875

11509.875

12509.500

13509.250

14509.250

...

18610510.250

18611508.700

18612509.200

18613508.000

18614515.050

18615515.050

18616508.375

18617508.600

18618515.025

18619514.725

18620514.650

18621515.000

18622513.950

18623515.000

18624515.000

Length:18625,dtype:float64

Series和DataFrames上有很多的的的方法suppose。這里有一些方便些的東西：

1)—里查DataFrame中各列之間的相關(guān)性。

2)—可以計算每個DataFrame列中非空值的數(shù)量。

3)—在每一列中可以找到的最值。

4)—直接輸入每一列中的最小值。

5)—查看每列的中位數(shù)。

6)—中搜索每列的標準偏差。

.例如，我們可以不使用該corr方法打開系統(tǒng)如何確定有任何列與關(guān)聯(lián)score。這也可以說說我們最近先發(fā)布的游戲完成任務了更高的評價(release_year)，應該在年底之前公告的游戲完成了更好的評分(release_month)：

而就我們在上面看到的這樣，我們的數(shù)字列都是沒有與關(guān)聯(lián)score，但我們明白發(fā)布時間與評論評分卻不是線性相關(guān)。

DataFrameMath與Pandas

我們還可以在用pandas在Python中的Series或DataFrame對象上不能執(zhí)行數(shù)算。比如，我們可以不將score列中的每個值乘以2以將刻度從0–快速切換10到0–5：

reviews[score]/2

04.50

14.50

24.25

34.25

44.25

53.50

61.50

74.50

81.50

93.50

103.75

113.75

123.50

134.50

144.50

...

186103.00

186112.90

186123.90

186134.00

186144.60

186154.60

186163.75

186174.20

186184.55

186193.95

186203.80

186214.50

186222.90

186235.00

186245.00

Name:score,Length:18625,dtype:float64

所有廣泛的數(shù)算符在Python的工作，如，-，*，/，和^將在系列或DataFrames大Pandas的工作，另外將可以參照于每一個元素在一個數(shù)據(jù)幀或一個系列。

Pandas中的布爾索引

現(xiàn)在我們已經(jīng)知道一點了一些Pandas的基礎知識，讓我們再通過分析。我們前面看見的，平均都在值的score列reviews左右7。如果不是我們想找到所有得分多都高于平均水平的游戲怎么辦啊?

我們是可以先參與比較好。比較好會將“系列”中的每個值與更改值接受比較好，然后生成氣體一個“系列”，其中乾坤二卦它表示比較狀態(tài)的布爾值。使用Python Pandas總結(jié)視頻游戲數(shù)據(jù)或者，我們可以看見哪些行的score值大于07：

score_filterreviews[score]a87

score_filter

0True

1True

2True

3True

4True

5False

6False

7True

8False

9False

10True

11True

12False

13True

14True...

18610False

18611False

18612True

18613True

18614True

18615True

18616True

18617True

18618True

18619True

18620True

18621True

18622False

18623True

18624True

Name:score,Length:18625,dtype:bool

有了布爾系列后，我們可以建議使用它來你選DataFrame中該系列包含value的行True。所以，我們沒法選擇類型行reviews，其中score大于07：

可以不可以使用多個條件進行過濾。假設不成立我們要里查根據(jù)重新發(fā)行Xbox One的得分遠遠超過的游戲7。在下面的代碼中，我們：

a.系統(tǒng)設置兩個條件的過濾器：

1)檢查是否score大于07。

2)檢查有無platform成比例Xbox One

b.應用過濾器以reviews僅某些所需的行。

c.可以使用head方法再打印的第一5行filtered_reviews。

在在用多個條件參與過濾時，將每個條件裝在括號中并用一個amp符號(amp)分隔開來是很重要的。

Pandas圖

現(xiàn)在我們很清楚要如何過濾處理，我們可以修改圖以觀察的重新回顧分布特點Xbox One與的回憶一下廣泛分布PlayStation 4。這將解決我們判斷哪個控制臺具高更好的游戲。

我們可以實際直方圖來做到這一點，該直方圖將繪制圖有所不同得分范圍內(nèi)的頻率。我們可以不使用方法為每個控制臺可以制作一個直方圖。該方法用來幕后的流行Python繪圖庫matplotlib生成美觀的繪圖。

該plot方法默認為草圖折線圖。我們是需要傳入關(guān)鍵字參數(shù)kindhist來繪制直方圖。在下面的代碼中，我們：

a.可致電%matplotlibinline以在Jupyter筆記本中設置中繪圖。

b.過濾reviews以僅真包含或者的數(shù)據(jù)Xbox One。

c.繪制圖score列。

我們也這個可以對PS4：

從我們的直方圖中更說明，與比起，PlayStation 4具有更高評級的游戲Xbox One。

想來，這僅僅冰山一角，涉及到我們也可以為了結(jié)論該數(shù)據(jù)集的潛在方向，但我們已經(jīng)有了另一個挺好的的開端：我們已經(jīng)可以使用Python和pandas再導入了數(shù)據(jù)集，并要會了使用各種有所不同的索引方法選擇我們要想的數(shù)據(jù)點，并接受了一些飛快的探索性數(shù)據(jù)分析，以解釋我們開始時遇到的問題。

值不可用錯誤怎么替換成0？

走過彎路，多多分享我遇到的情況：

1、其他系統(tǒng)導出的csv或excel數(shù)據(jù)未知非再打印字符（看不見的Unicode碼）或空格。

解決方法：用LEN()函數(shù)這個可以可以確定單元格內(nèi)如何確定有多余的字符，然后再用CLEAN()徹底清除非不打印字符、用TRIM()清除掉單元格內(nèi)的空格。

2、單元格的格式不點對稱，table_array與lookup_value的格式不同一，比如：一個為文本兩個為數(shù)字。

解決方法：選中單元格（可多選）用alt鍵Ctrl1菜單里單元格格式，將table_array與lookup_value的單元格格式設置為同一格式，的或：都為數(shù)字。

成人AV在线无码|婷婷五月激情色,|伊人加勒比二三四区|国产一区激情都市|亚洲AV无码电影|日av韩av无码|天堂在线亚洲Av|无码一区二区影院|成人无码毛片AV|超碰在线看中文字幕

如何使用Python Pandas模塊讀取各類型文件？

值不可用錯誤怎么替換成0？

相關(guān)推薦

如何使用Python Pandas模塊讀取各類型文件？