如何用java寫一個網站 用Python寫一個爬蟲,做一個冷門行業(yè)的搜索引擎,能實現嗎?
用Python寫一個爬蟲,做一個冷門行業(yè)的搜索引擎,能實現嗎?簡單的方法是寫一個百度爬蟲,自己建一個網站,直接跳轉到百度搜索結果。稍微復雜一點的方法就是在上面的基礎上增加過濾功能,剔除所有非行業(yè)內容!
用Python寫一個爬蟲,做一個冷門行業(yè)的搜索引擎,能實現嗎?
簡單的方法是寫一個百度爬蟲,自己建一個網站,直接跳轉到百度搜索結果。稍微復雜一點的方法就是在上面的基礎上增加過濾功能,剔除所有非行業(yè)內容
!在比較復雜的時候,收集一些專業(yè)的信息,比如幾個論壇的網頁或者相關的信息發(fā)布者,然后做相應的爬蟲,比如數據庫,然后寫一個網站
因為這個不受歡迎的行業(yè)也有受眾少、內容少(相對來說)的問題,你可以自己建一個但是你需要努力擴大你的影響力。至少,這個行業(yè)的人必須認識你
!當然,如果只是供您自己使用,那就簡單了。即使您制作了查詢系統的命令行版本,您也可以這樣做。只是數據集成、實時爬行等等
!我記得我以前想寫一個爬蟲。我整合了幾個盜版小說網站的爬蟲。搜索之后,我選擇了不同的網站下載小說。寫了一半之后,我找到了可以實現的軟件。。。是撞車。。。
后來發(fā)現,其實寫一個百度爬蟲,然后指定關鍵字以一種非常方便的方式顯示搜索結果,也適合我偷懶。。。
希望對您有所幫助
寫爬蟲用什么語言好?
爬蟲選擇什么工具?
1. Crawler是一個網絡蜘蛛機器人,它能自動地抓取數據并根據我們的規(guī)則獲取數據
2。為什么使用爬蟲?私人定制搜索引擎獲取更多數據的時代不再是互聯網時代,而是大數據時代
3。爬蟲的原理:控制節(jié)點(URL分配器)、爬蟲節(jié)點(根據算法抓取數據并存儲在數據庫中)、資源庫(存儲爬蟲數據庫提供搜索)。爬蟲的設計思想:爬蟲的網絡地址,通過HTTP協議得到相應的HTML頁面
5。爬蟲語言選擇:
PHP:雖然被評為“世界上最好的語言”,但作為爬蟲的缺點:沒有多線程的概念,對異步的支持很少,并發(fā)性不足,爬蟲對效率的要求很高
C/C Java:python最大的競爭對手,它非常龐大和笨重。爬蟲需要經常修改代碼
Python:語言優(yōu)美,代碼介紹,多方功能模塊,調用替代語言接口,成熟的高分布式策略
PYT Java]Java有很多解析器,非常支持網頁解析。缺點是有很多Java開源爬蟲,比如nutch,中國有優(yōu)秀的webmagicjava解析器,比如Htmlparser和jsoup,可以滿足Java和python的通用需求。如果需要模擬登陸和反采集,選擇python更方便。如果需要處理復雜的網頁,解析網頁內容生成結構化數據或精細解析網頁內容,可以選擇Java。