hdfs文件寫入的詳細(xì)流程 spark是哪個公司生產(chǎn)的?
spark是哪個公司生產(chǎn)的?ApacheSpark是專為如此大規(guī)模數(shù)據(jù)處理而怎么設(shè)計的迅速不分地區(qū)的計算引擎。Spark是UC BerkeleyAMPlab(加州大學(xué)伯克利分校的AMP實驗室)所開源的
spark是哪個公司生產(chǎn)的?
ApacheSpark是專為如此大規(guī)模數(shù)據(jù)處理而怎么設(shè)計的迅速不分地區(qū)的計算引擎。Spark是UC BerkeleyAMPlab(加州大學(xué)伯克利分校的AMP實驗室)所開源的類Hadoop MapReduce的通用分頭并進(jìn)框架,Spark,占據(jù)Hadoop MapReduce所更具的優(yōu)點;但類似于MapReduce的是——Job中間輸出結(jié)果可以不存放在內(nèi)存中,最大限度地繼續(xù)要讀寫HDFS,而Spark能更合適地可以參照于數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)等不需要迭代的MapReduce的算法。
Apache Mahout如何使用?
Mahout直接安裝詳細(xì)點全過程1、jdk完全安裝22、SSH無密碼驗證電腦配置23、Hadoop電腦配置34、Hadop在用65、Maven安裝76、安裝lucene77、hadoop集群來想執(zhí)行聚類算法88、其他8――――――――――――――――――――1、jdk按裝1.1、到官網(wǎng)下載相關(guān)的JDK下載地址:
、然后打開“終端”鍵入:sh
1.3、設(shè)置中JAVA_HOME環(huán)境系統(tǒng)變量輸入:vi/etc/environment在文件中再添加:exportJAVA_HOME/root/jdk1.6.0_24exportJRE_Home/root/jdk1.6.0_24/jreexportCLASSPATH$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib同樣,直接修改第二個文件。輸入:vi/etc/profile在umask022之前添加200以內(nèi)語句:exportJAVA_HOME/root/jdk1.6.0_24exportJRE_Home/root/jdk1.6.0_24/jreexportCLASSPATH$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/libexportPATH$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH:$HOME/bin1.4、自動注銷用戶,檢測JDK版本。鍵入:java-version2、集群環(huán)境能介紹集群中有三個節(jié)點:1個namenode,2個datanode,節(jié)點之間局域網(wǎng)連接到,可以不相互ping服務(wù)器通。節(jié)點IP 地址分布特點萬分感謝:Namenode:::三臺節(jié)點上均是CentOS系統(tǒng),Hadoop在/root/hadoop/目錄下。在/etc/hosts上先添加主機(jī)名和相對應(yīng)的IP地址:192.168.1.10master192.168.1.20slave1192.168.1.21slave23、SSH無密碼驗證配置好不好2.1Hadoop是需要建議使用SSH協(xié)議,namenode將在用SSH協(xié)議起動namenode和datanode進(jìn)程,偽分布式模式數(shù)據(jù)節(jié)點和名稱節(jié)點均是本身,可以配置SSHlocalhost無密碼修改密保。用root用戶登錄,自己在家目錄下負(fù)責(zé)執(zhí)行不勝感激命令:ssh-keygen-trsa[~]#ssh-keygen-trsaGeneratingwelfare/privatersakeypair.Enter
fileoutsidewhichneedsavethe key(_rsa):
按回車設(shè)置為路徑Createddirectory.創(chuàng)建戰(zhàn)隊
目錄Enterpassphrase(emptyafternopassphrase):Entersamepassphraseagain:Youridentificationhas beensavedin_
welfarekeyhas beensavedof_
keyfingerprintis:c6:7e:57:59:0a:2d:85:49:23:cc:c4:58:ff:db:5b:38以上命令將在
目錄下生成id_rsa私鑰和id_
公鑰。進(jìn)入
目錄在namenode節(jié)點下做不勝感激配置:[.ssh]#catid_
authorized_keys[.ssh]#scpauthorized_keys[
.ssh]#scpauthorized_keys
配置完畢后,可按照ssh本機(jī)IP測試如何確定需要密碼登錄。2.2和namenode無密碼登錄所有Datanode原理一般,把Datanode的公鑰不能復(fù)制到Namenode的.ssh
目錄下。[.ssh]#scpauthorized_keys1192.168.1.10:/root[root@]#scpauthorized_keys2192.168.1.10:/root
將剛傳回來的authorized_keys1、2加入到到authorized_keys[root@]#catauthorized_keys1authorized_keys[root@]#catauthorized_keys2authorized_keys那樣也能在Datanode上直接關(guān)閉和起動Hadoop服務(wù)。4、Hadoop配置直接下載hadoop-0.20.2.tar.gz
,進(jìn)行壓縮包。tarzxvfhadoop-0.20.2.tar.gz
修改/etc/profile,一并加入追加:#sethadooppathexportHADOOP_HOME/root/hadoopexportPATH$HADOOP_HOME/bin:$PATH4.1、進(jìn)入到hadoop/conf,配置Hadoop配置文件4.1.1配置
文件添加#setjavaenvironmentexportJAVA_HOME/root/jdk1.6.0_24編輯后保存再次。4.1.2配置core-site.xml#vicore-site.xml4.1.3配置hdfs-site.xml#vihdfs-site.xml4.1.4配置mapred-site.xml#vimapred-site.xml4.1.5配置masters#vimasters192.168.1.104.1.6配置slaves#vislaves192.168.1.20192.168.1.214.2、Hadoop啟動后4.2.1進(jìn)入到/root/hadoop/bin目錄下,磁盤格式化namenode#./hadoopnamenodeCformat4.2.2啟動時hadoop所有進(jìn)程在/root/hadoop/bin目錄下,先執(zhí)行
命令啟動后能完成后,后用jps命令一欄hadoop進(jìn)程有無啟動時幾乎。正常情況下應(yīng)該是有萬分感謝進(jìn)程:10910NameNode11431Jps11176SecondaryNameNode11053DataNode11254JobTracker11378TaskTracker我在搭建中過程中,在此環(huán)節(jié)出現(xiàn)的問題最多,每天都出現(xiàn)正常啟動進(jìn)程不求下載的情況,要不是datanode無常了啟動時,那是namenode或是TaskTracker啟動十分。能解決的萬分感謝:1)在Linux下自動關(guān)閉防火墻:在用serviceiptablesstop命令;2)再一次對namenode通過格式化:在/root/hadoop/bin目錄下先執(zhí)行hadoopnamenode-format命令3)對服務(wù)器參與重啟4)欄里點datanode又或者是namenode填寫的日志文件,日志文件保存在/root/hadoop/logs目錄下。5)又一次在/bin目錄下用
新的命令啟動后所有進(jìn)程,實際以上的幾個方法估計能幫忙解決進(jìn)程啟動不幾乎的問題了。4.2.3查找集群狀態(tài)在bin目錄下先執(zhí)行:hadoopdfsadmin-report#hadoopdfsadminCreport4.3在WEB頁面下打開系統(tǒng)Hadoop工作情況先打開IE瀏覽器然后輸入防御部署Hadoop服務(wù)器的IP::50070:50030。5、Hadop使用一個測試?yán)觲ordcount:計算出鍵入文本中詞語數(shù)量的程序。WordCount在Hadoop主目錄下的java程序包hadoop-0.20.2-examples.jar
中,負(fù)責(zé)執(zhí)行步驟如下:在/root/hadoop/bin/目錄下接受追加你的操作:./hadoopfs-mkdirinput(新建目錄名稱,可輸入命名)mkdir/root/a/vi/root/a/a.txt
寫入到hello worldhello!#hadoopfs-copyFromLocal/root/a/outputs在/root/hadoop/bin下先執(zhí)行:#./hadoopjarhadoop-0.20.2-examples.jar
wordcountinputinput(提交作業(yè),此處需注意一點input與output是一組任務(wù),下回再不能執(zhí)行wordcount程序,還得新建項目錄intput1與output1不能跟input與output重名)6、Maven完全安裝6.1下載Maven解壓tarvxzfapache-maven-3.0.2-bin.tar.gzmv
apache-maven-3.0.2/root/maven6.2vi~
去添加萬分感謝兩行exportM3_HOME/root/mavenexportPATH${M3_HOME}/bin:${PATH}6.3先logout,之后再signin查看maven版本,看是否安裝好順利mvn-version7、安裝mahout安裝方法見:
、hadoop集群來執(zhí)行聚類算法8.1數(shù)據(jù)準(zhǔn)備cd/root/
./hadoopfs-mkdirtestdata./hadoopfs-throwingsynthetic_
testdata./hadoopfs-lsrtestdatabin/hadoopjar/root/mahout/mahout-examples-0.4-job.jar
查找?guī)鸵幌旅Y(jié)果吧bin/mahoutvectordump--seqFile/user/root/output/data/no.-r-00000這個真接把結(jié)果顯示在控制臺上。9、hadoop集群來想執(zhí)行推薦算法分布式bin/hadoopjar/root/trunk/mahout-distribution-0.4/mahout-core-0.4-job.jar
-Dmapred.output.diroutput2偽分布式bin/hadoopjar/root/trunk/mahout-distribution-0.4/mahout-core-0.4-job.jar
--recommenderClassName
-Dmapred.output.diroutput_w10wan10、其他趕回安全模式:hadoopdfsadmin-safemodeleave