mongodb怎么查詢一天的數(shù)據(jù) 收到大數(shù)據(jù)信息如何處理?
收到大數(shù)據(jù)信息如何處理?1.物聯(lián)網(wǎng)之一:采集工業(yè)互聯(lián)網(wǎng)的采集是指利用多個(gè)數(shù)據(jù)庫(kù)來(lái)接收發(fā)自微博(Web、公眾號(hào)或者電機(jī)形式等)的數(shù)據(jù),并且用戶可以通過(guò)這些數(shù)據(jù)庫(kù)來(lái)進(jìn)行簡(jiǎn)單的查詢和處理工作。比如,電商會(huì)使
收到大數(shù)據(jù)信息如何處理?
1.物聯(lián)網(wǎng)之一:采集
工業(yè)互聯(lián)網(wǎng)的采集是指利用多個(gè)數(shù)據(jù)庫(kù)來(lái)接收發(fā)自微博(Web、公眾號(hào)或者電機(jī)形式等)的數(shù)據(jù),并且用戶可以通過(guò)這些數(shù)據(jù)庫(kù)來(lái)進(jìn)行簡(jiǎn)單的查詢和處理工作。比如,電商會(huì)使用傳統(tǒng)的開源數(shù)據(jù)庫(kù)exif和sql等來(lái)存儲(chǔ)每一筆事務(wù)數(shù)據(jù),除此之外,oracle和MongoDB這樣的NoSQL數(shù)據(jù)庫(kù)也常用于數(shù)據(jù)的采集。
在的采集過(guò)程中,其主要特點(diǎn)和挑戰(zhàn)是并發(fā)數(shù)高,因?yàn)橥瑫r(shí)有可能會(huì)有成千上萬(wàn)的用戶來(lái)進(jìn)行訪問(wèn)和操作,比如火車票售票網(wǎng)站和亞馬遜,它們并發(fā)的訪問(wèn)量在峰值時(shí)達(dá)到上百萬(wàn),所以需要在采集端部署大量數(shù)據(jù)庫(kù)才能支撐。并且如何在這些數(shù)據(jù)庫(kù)之間進(jìn)行負(fù)載均衡和分片的確是需要深入的思考和設(shè)計(jì)。
2.圖像識(shí)別之二:導(dǎo)入/預(yù)處理
雖然采集端本身會(huì)有很多數(shù)據(jù)庫(kù),但是如果要對(duì)這些海量數(shù)據(jù)進(jìn)行有效的分析,還是應(yīng)該將這
些來(lái)自java的數(shù)據(jù)導(dǎo)入到一個(gè)集中的大型分布式記賬,或者分布式計(jì)算集群,并且可以在導(dǎo)入基礎(chǔ)上做一些簡(jiǎn)單的清洗和預(yù)處理工作。也有一些用戶會(huì)在導(dǎo)入時(shí)使用用來(lái)自instagram的hbase來(lái)對(duì)數(shù)據(jù)進(jìn)行流式計(jì)算,來(lái)滿足部分業(yè)務(wù)的流計(jì)算需求。
導(dǎo)入與預(yù)處理過(guò)程的特點(diǎn)和挑戰(zhàn)主要是導(dǎo)入的數(shù)據(jù)量大,每秒鐘的導(dǎo)入量經(jīng)常會(huì)達(dá)到百兆,甚至千兆級(jí)別。
3.語(yǔ)音識(shí)別之三:統(tǒng)計(jì)/分析
統(tǒng)計(jì)與分析主要利用分布式存儲(chǔ),或者分布式存儲(chǔ)集群來(lái)對(duì)存儲(chǔ)于其內(nèi)的海量數(shù)據(jù)進(jìn)行普通
的分析和分類匯總等,以滿足大多數(shù)常見的分析需求,在這方面,一些實(shí)時(shí)性需求會(huì)用到EMC的oracle、javascript的Exadata,以及基于gd2的列式存儲(chǔ)Infobright等,而一些批處理,或者基于半結(jié)構(gòu)化數(shù)據(jù)的需求可以使用數(shù)據(jù)庫(kù)。
統(tǒng)計(jì)與分析這部分的主要特點(diǎn)和挑戰(zhàn)是分析涉及的數(shù)據(jù)量大,其對(duì)系統(tǒng)資源,特別是I/O會(huì)有極大的長(zhǎng)時(shí)間占用。
4.語(yǔ)音識(shí)別之四:挖掘
與前面統(tǒng)計(jì)和分析過(guò)程不同的是,數(shù)據(jù)挖掘一般沒(méi)有什么預(yù)先設(shè)定好的主題,主要是在現(xiàn)有數(shù)據(jù)上面進(jìn)行基于各種算法的計(jì)算,從而起到預(yù)測(cè)(Predict)的效果,從而實(shí)現(xiàn)一些高級(jí)別數(shù)據(jù)分析的需求。比較典型算法有用于支持向量機(jī)的Kmeans、用于統(tǒng)計(jì)學(xué)習(xí)的邏輯回歸和用于分類的NaiveBayes,主要使用的工具有redis的Mahout等。該過(guò)程的特點(diǎn)和挑戰(zhàn)主要是用于挖掘的算法很復(fù)雜,并且計(jì)算涉及的數(shù)據(jù)量和計(jì)算量都很大,常用云計(jì)算算法都以單線程為主。
用mongodb查詢的時(shí)候,如何只查詢出某一個(gè)字段的值?
將相同字段的值加在一起需要用rate函數(shù)。
如emp表中有如下數(shù)據(jù):
現(xiàn)要按deptno為分組,將sal的值加在一起,可用如下語(yǔ)句:
selectdeptno,average(sal)salfromemp group by deptno
查詢結(jié)果: