關(guān)于電腦網(wǎng)絡(luò)爬蟲這方面的
律師回復(fù)
-
月幫助201720人經(jīng)過上面對網(wǎng)絡(luò)爬蟲系統(tǒng)相關(guān)技術(shù)背景的介紹之后,接下來就是要根據(jù)需求分析的結(jié)果來完成對本文的網(wǎng)絡(luò)爬蟲系統(tǒng)的總體設(shè)計了。在這一章開始部分,給出了分布式爬蟲系統(tǒng)的需求分析,這些需求有爬蟲要爬去的目標(biāo)網(wǎng)頁、要求以及單位自身的要求。然后,在Hadoop分布式系統(tǒng)架構(gòu)的技術(shù)基礎(chǔ)之上,對爬蟲系統(tǒng)進(jìn)行了總體上的了解,明確了爬蟲系統(tǒng)對于跨語言搜索的重要作用。另外,對系統(tǒng)的總體結(jié)構(gòu)和功能模塊進(jìn)行了設(shè)計,給出了流程圖。本章的最后詳細(xì)介紹了每個功能模塊的具體結(jié)構(gòu),并指出實現(xiàn)方法。 3.1 需求分析 本系統(tǒng)是單位關(guān)于分布式跨語言搜索項目的一個子項目。這個分布式跨語言搜索項目主要包含兩個部分:一是數(shù)據(jù)獲得部分;二是信息搜索部分。文章主要負(fù)責(zé)數(shù)據(jù)信息的獲取工作。在詳細(xì)講解本章內(nèi)容之前,先介紹一下項目相關(guān)的背景。本項目簡單說來就是要實現(xiàn)輸入某種語言的關(guān)鍵字,然后查找出該關(guān)鍵字相關(guān)多種語言的信息,當(dāng)前該項目的進(jìn)展是已經(jīng)可以搜索出27種語言的信息。其中包括中、日、英、德、法、俄等適用范圍較廣的主流語言,也包括像蒙古語、越南語、印地語等等小范圍使用的語言。同時,該分布式跨語言搜索項目在搜索的時候主要對這27種語言相關(guān)的新聞信息進(jìn)行檢索。最后,這個分布式跨語言搜索項目中明確規(guī)定,不管是網(wǎng)絡(luò)爬蟲系統(tǒng)還是信息搜索系統(tǒng)都必須使用分布式結(jié)構(gòu)。 3.1.1 功能需求分析 因為本系統(tǒng)是分布式跨語言搜索項目的一個子小木,因此在介紹它之前我們先大致了解一下跨語言搜索項目的總體布局。通過這個小結(jié)的講解,能夠從整體上認(rèn)識分布式網(wǎng)絡(luò)爬蟲系統(tǒng),了解該系統(tǒng)的整體模塊設(shè)計以及了解該系統(tǒng)在整個項目中的重要性,從而更好地進(jìn)行需求分析。同時,還可以了解爬蟲系統(tǒng)要實現(xiàn)的目的和要做的工作,為后續(xù)索引工作打下基礎(chǔ)。 分布式跨語言搜索項目用到的框架是現(xiàn)在應(yīng)用很廣泛的Hadoop分布式系統(tǒng)框架。根據(jù)前面章節(jié)的介紹,我們知道Hadoop其實是基于云計算的一個框架,主要由HDFS和Map/Reduce模型這兩塊組成,使用者在使用這一框架的時候不需要知道底層實現(xiàn)過程,因而開發(fā)程序更加便利。本分布式跨語言搜索項目的功能模塊大致有5塊,各個功能模塊都有其相應(yīng)的Map/Reduce計算模型。模塊包括:爬蟲系統(tǒng)、分析、索引、搜索以及查詢這五大模塊,特別之處的是,這五個模塊必須都是采用分布式技術(shù)的。而本文正是要探討如何利用分布式技術(shù)來實現(xiàn)網(wǎng)絡(luò)爬蟲系統(tǒng)。圖3-1展示的是該項目的功能模塊劃分圖。 更加具體的可以私信我…… 原問題:《基于c#的網(wǎng)絡(luò)爬蟲的論文~~~~跪求!》回復(fù)于 2022-12-06 06:51:04