java爬蟲的步驟 Java爬蟲方向怎么樣?
Java爬蟲方向怎么樣?我曾經(jīng)在某會(huì)增大項(xiàng)目接受過(guò)Java的爬蟲數(shù)據(jù)采集,在Java方面有一定會(huì)經(jīng)驗(yàn)。Java爬取應(yīng)該P(yáng)ython爬取這個(gè)問題較低的它取決于有權(quán)限下決定的那個(gè)人和團(tuán)隊(duì)是更熟悉Java我
Java爬蟲方向怎么樣?
我曾經(jīng)在某會(huì)增大項(xiàng)目接受過(guò)Java的爬蟲數(shù)據(jù)采集,在Java方面有一定會(huì)經(jīng)驗(yàn)。
Java爬取應(yīng)該P(yáng)ython爬取這個(gè)問題較低的它取決于有權(quán)限下決定的那個(gè)人和團(tuán)隊(duì)是更熟悉Java我還是Python。Python在爬蟲方面有簡(jiǎn)單易用和結(jié)構(gòu)以簡(jiǎn)潔的優(yōu)勢(shì),比較適合最常見爬蟲項(xiàng)目的開發(fā);如果是一個(gè)純Java架構(gòu)的項(xiàng)目和團(tuán)隊(duì),再去拿來(lái)找個(gè)人去想研究Python就各位了,而且會(huì)不能形成Java與Python的混合架構(gòu),有維護(hù)的成本,這時(shí)候Java就會(huì)占優(yōu)。
爬取與反爬取如果不是好象性的網(wǎng)站爬取應(yīng)該也很很難的,用原生HttpClient表就行。若碰到較知名的網(wǎng)站,而不會(huì)本身很多反爬取機(jī)制(js、驗(yàn)證碼、圖形驗(yàn)證碼...等等),和頻繁的網(wǎng)頁(yè)改版以后,倒致爬取失效。的確,爬取工作大量的是在與網(wǎng)站的反爬取機(jī)制通過(guò)攻防對(duì)抗。當(dāng)然了對(duì)抗技術(shù)也有很多,就不在這里發(fā)動(dòng)了。
來(lái)到問題:Java爬蟲方向咋樣???這個(gè)問題在打聽一下了上面的信息后,更多的是看個(gè)人興趣和研究意愿的,每個(gè)人的答案都有所不同,大家也可以不在下面的評(píng)論中給出自己的意見。
做垂直爬蟲用GO JAVA PYTHON哪個(gè)比較好?各有什么優(yōu)勢(shì)?
個(gè)人建議您你熟悉哪門語(yǔ)言就用哪個(gè),基本是現(xiàn)在百度一下都有吧你自己做代碼可以不用,一點(diǎn)改呀都能滿足業(yè)務(wù)需求,我是用php的,效率絕逼有保障,也并沒說(shuō)會(huì)有多實(shí)在不方便,抓取信息淘寶阿里商品也是可以啦的,線程呀或者什么管理之類的,反正即便python什么的有太麻煩的,可是沒準(zhǔn)兒你得花時(shí)間去學(xué)習(xí)這門語(yǔ)言,你不學(xué),不熟得不能再熟一樣的懵逼,也得百度,所以才說(shuō),用自己熟悉的語(yǔ)言做是最好是的,我一直在是用php的curl做爬蟲,應(yīng)該用得很抓起,個(gè)人總結(jié)吧,爬蟲和語(yǔ)言沒太大關(guān)系,所謂的的效率好象項(xiàng)目也無(wú)什么大礙,優(yōu)化得好,這都不是問題,但是路漫漫長(zhǎng)吧,有時(shí)間能學(xué)python我還是python好,我只不過(guò)是我沒時(shí)間去學(xué)。
俗話有句話,爬蟲用得好,牢飯吃得飽,希望走正道吧。
結(jié)果選擇類型Python的原因:
跨平臺(tái),對(duì)Linux和windows都有確實(shí)不錯(cuò)的支持。
科學(xué)計(jì)算,數(shù)值曲線擬合:Numpy,Scipy
可視化:2d:Matplotlib(做圖很漂亮啊),3d:Mayavi2
奇怪網(wǎng)絡(luò):Networkx
統(tǒng)計(jì):與R語(yǔ)言接口:Rpy
可視化終端
通??茨隳莻€(gè)比較熟悉什么語(yǔ)言,熟悉什么語(yǔ)言用什么,這是最最好的選擇。如果沒有都是需要新學(xué)的話我推薦python,爬蟲框架晚熟,語(yǔ)言容易上手,是最常用的爬蟲語(yǔ)言!
Scrapy,ms4