hive表遷移到另一張表 mysql表數(shù)據(jù)量太大,達(dá)到了1億多條數(shù)據(jù),除了分庫分表之外,還有沒有其他的解決方式?
mysql表數(shù)據(jù)量太大,達(dá)到了1億多條數(shù)據(jù),除了分庫分表之外,還有沒有其他的解決方式?在正常配置下,MySQL只能承載2000萬數(shù)據(jù)(同時(shí)讀寫,表中有大文本字段,單服務(wù)器)?,F(xiàn)在已經(jīng)超過1億,而且還在
mysql表數(shù)據(jù)量太大,達(dá)到了1億多條數(shù)據(jù),除了分庫分表之外,還有沒有其他的解決方式?
在正常配置下,MySQL只能承載2000萬數(shù)據(jù)(同時(shí)讀寫,表中有大文本字段,單服務(wù)器)?,F(xiàn)在已經(jīng)超過1億,而且還在增加,建議按以下方式處理:
1子表。它可以按時(shí)間或一定的規(guī)則進(jìn)行拆分,以便盡可能地查詢子表中的數(shù)據(jù)庫。這是最有效的方法。特別是寫,放入一個(gè)新表,并定期同步。如果記錄不斷更新,最好將寫入的數(shù)據(jù)放在redis中,并定期同步表3的大文本字段,將它們分隔成一個(gè)新的獨(dú)立表。對(duì)于較大的文本字段,可以使用NoSQL數(shù)據(jù)庫
4優(yōu)化體系結(jié)構(gòu),或者優(yōu)化SQL查詢,避免聯(lián)合表查詢,盡量不要使用count(*)、in、recursion等性能消耗語句
5使用內(nèi)存緩存,或者在前端讀取時(shí)增加緩存數(shù)據(jù)庫。重復(fù)讀取時(shí),直接從緩存中讀取。
以上是一種低成本的管理方法,基本上幾個(gè)服務(wù)器就可以做到,但是管理起來有點(diǎn)麻煩。
當(dāng)然,如果總體數(shù)據(jù)量特別大,并且您不關(guān)心投資成本,請(qǐng)使用群集或tidb
謝謝!筆者剛剛簽了一份大數(shù)據(jù)挖掘工程師的合同,到了研究生階段才轉(zhuǎn)向大數(shù)據(jù)方向。目前大數(shù)據(jù)火爆,很多學(xué)生都想上交,但自學(xué)的學(xué)習(xí)路線因人而異。
以我自己為例,作者出生于Python數(shù)據(jù)分析領(lǐng)域,具有通用編程能力。因此,在此基礎(chǔ)上,他首先學(xué)習(xí)了Linux的基本操作命令,安裝了Ubuntu的雙系統(tǒng),并進(jìn)一步安裝了Hadoop和spark組件。在此基礎(chǔ)上,他利用pypark操作spark大數(shù)據(jù)框架進(jìn)行學(xué)習(xí)。您可以推薦以下書籍:
pypark實(shí)用指南
,由淺入深,非常好用。