<ruby id="45d9r"></ruby>

<tbody id="45d9r"></tbody>

  1. <tbody id="45d9r"></tbody>

    1/8
    0/100
    您的瀏覽器不支持進度條
    下載所得到的文件列表
    定向網絡爬蟲開題報告.doc
    文檔介紹:
    山東科技大學本科畢業設計(論文)開題報告題目網絡爬蟲定向爬取?腳本之家?文本信息學院名稱信息科學與工程學院專業班級計算機科學與技術2012級2班學生姓名包志英學號201201050201指導教師趙中英填表時間:二0一六年三月二十八日設計(論文)題目網絡爬蟲?定向爬取腳本之家文本信息設計(論文)類型(劃“√”)工程設計應用研究開發研究基礎研究其它√本課題的研究目的和意義本課題的主要目的是設計面向主題的網絡爬蟲程序,同時需要滿足的是具有一定的性能,要考慮到網絡爬蟲的各種需求。網絡爬蟲主體網站的特性。對url進行構造。網絡爬蟲使用scrapy實現多線程,讓爬蟲具備更強大的抓取能力和靈活性。網絡爬蟲要實現對特定主題的爬取。網絡爬蟲還要完成信息提取任務,對于抓取回來的網頁提取出來:新聞、電子圖書、行業信息等。對網絡爬蟲的連接網絡設置連接及讀取時間,避免無限制的等待。研究網絡爬蟲的原理并實現爬蟲的相關功能。最終實現的網絡爬蟲應該能根據設定的主題,從構造的url進行一定數據爬取,并最終得到需要的數據互聯網是一個龐大的非結構化的數據庫,將數據有效的檢索并組織呈現出來有著巨大的應用前景。搜索引擎作為一個輔助人們檢索信息的工具。但是,這些通用性搜索引擎也存在著一定的局限性。不同領域、不同背景的用戶往往具有不同的檢索目的和需求,通用搜索引擎所返回的結果包含大量用戶不關心的網頁。為了解決這個問題,一個靈活的爬蟲有著無可替代的重要意義。本課題的主要研究內容(提綱)本課題研究的內容是如何使網絡爬蟲靈活高效。如何更具網站主體特性不同構造URL。如何具備更強的抓取能力。如何分辨重復的網頁內容。如何確定主題相關性。對于對線程并發的處理。對于緩存和并發請求的處理對反扒機制的應對對于網絡時延等的處理。對于數據的存儲格式與形式文獻綜述(國內外研究情況及其發展)對于網絡爬蟲的研究從上世紀九十年代就開始了,目前爬蟲技術已經趨見成熟,網絡爬蟲是搜索引擎的重要組成部分。網絡上比較著名的開源爬蟲包括Nutch,Larbin,Heritrix。網絡爬蟲最重要的是網頁搜索策略(廣度優先和最佳度優先)和網頁分析策略(基于網絡拓撲的分析算法和基于網頁內容的網頁分析算法)。國內外流行的爬蟲技術相當多,很多人喜歡基于Python的,也有人喜歡用C#,很多人由于系統集成開發和跨平臺的需要傾向于java,我跟喜歡用Python。就原理來說,爬蟲組件都是差不多的,無頭瀏覽器,最能夠說明爬蟲的特性,它們被設計創造出來,大部分情況是用于自動化測試的。基于socket的httpclient功能簡單,性能強大,特別是在高并發的情況下,而被大家所青睞,特別是搜索引擎中,如果抓取靜態頁面,httpclient非常適合。當遇到ajax加載的信息,就需要javascript效果渲染的時候,httpclient就不行了,htmlunit是基于httpclient加入Rhino引擎實現js渲染的無頭瀏覽器,當然包含了httpclient的特性,然而,由于內存泄露的問題,高并發的狀態下,并不能很穩定的工作,內存消耗隨著程序的運行而不斷增大,直到達到jvm分配的上限而崩潰。很多時候,你只能做個權衡,每個webclient使用若干次后就把它回收,然后重新啟動一個,這非常影響性能。Rhino對于javascript的支持并不好,實際使用中,會發 內容來自淘豆網www.yinxuefei.com轉載請標明出處.
    五省快三 眉山市 | 观塘区 | 会泽县 | 漳州市 | 满洲里市 | 南川市 | 长阳 | 柯坪县 | 二连浩特市 | 红原县 | 揭西县 | 明溪县 | 民和 | 大丰市 | 北安市 | 海晏县 | 武夷山市 | 施秉县 | 德保县 | 洱源县 | 开原市 | 丁青县 | 阜阳市 | 青河县 | 广安市 | 顺平县 | 万宁市 | 乳源 | 综艺 | 新余市 | 陆丰市 | 禹州市 | 明光市 | 商都县 | 温泉县 | 中方县 | 淳安县 | 达尔 | 喜德县 | 顺义区 | 马关县 | 崇文区 | 迭部县 | 元氏县 | 石家庄市 | 衢州市 | 商都县 | 夹江县 | 阳城县 | 固阳县 | 和平区 |