< prev next > 返回

搜索引擎模塊組成

2022-10-12? 圍觀熱度 4611?網(wǎng)絡(luò)營銷

一個典型的網(wǎng)絡(luò)信息檢索系統(tǒng)的架構(gòu)由信息收集、查詢服務(wù)和信息處理三個模塊組成。從具體運行方式上說，系統(tǒng)根據(jù)站點，網(wǎng)頁的URL信息和網(wǎng)頁之間的鏈接關(guān)系，利用網(wǎng)絡(luò)蜘蛛在互聯(lián)網(wǎng)上收集數(shù)據(jù)。
  收集的數(shù)據(jù)分別通過鏈接信息分析器和文本信息分析器處理，保存在鏈接數(shù)據(jù)庫和文本索引數(shù)據(jù)庫中，同時，網(wǎng)頁質(zhì)量評估器依據(jù)網(wǎng)頁的鏈接關(guān)系和頁面結(jié)構(gòu)特征對頁面質(zhì)量進行評估，并將評估的結(jié)果保存在索引數(shù)據(jù)庫中。
  查詢服務(wù)器負責與用戶的交互，它根據(jù)用戶的檢索需求，從索引數(shù)據(jù)庫中讀取對應(yīng)的索引，并綜合考慮查詢相關(guān)性與頁面質(zhì)量評估結(jié)果之間的關(guān)系，給出查詢結(jié)果列表反饋給用戶。
  1．信息收集模塊搜索器的信息收集模塊包括“蜘蛛控制”和“網(wǎng)絡(luò)蜘蛛”兩部分，“蜘蛛”這個稱呼形象的描述出了信息收集模塊在網(wǎng)絡(luò)數(shù)據(jù)形成的Web上進行信息獲取的功能?？傮w而言，網(wǎng)絡(luò)蜘蛛從種子網(wǎng)頁出發(fā)，通過反復(fù)下載網(wǎng)頁并從文檔中尋找未曾見過的URL，達到訪問其他網(wǎng)頁得以遍歷Web的目的。
  而其工作策略一般則可以分為累積式抓?。╟umulative crawling）和增量式抓?。╥ncremental crawling）兩種。累積式抓取是指從某一個時間點開始，通過遍歷的方式抓取系統(tǒng)所能允許存儲和處理的所有網(wǎng)頁。在理想的軟硬件環(huán)境下，經(jīng)過足夠的運行時間，可以抓取到相當規(guī)模的網(wǎng)頁集合。
  但由于Web數(shù)據(jù)的動態(tài)特性，集合中網(wǎng)頁的被抓取時間點是不同的，頁面被更新的情況也不同，因此累積式抓取到的網(wǎng)頁集合事實上無法與真實環(huán)境中的網(wǎng)絡(luò)數(shù)據(jù)保持一致。與累積式抓取不同，增量式抓取是指在具有一定量規(guī)模的網(wǎng)絡(luò)頁面集合的基礎(chǔ)上，采用更新數(shù)據(jù)的方式對已有集合中的過時網(wǎng)頁進行抓取，以保證所抓取到的數(shù)據(jù)與真實網(wǎng)絡(luò)數(shù)據(jù)足夠接近。
  進行增量式抓取的前提是，系統(tǒng)已經(jīng)抓取了足夠數(shù)量的網(wǎng)絡(luò)頁面，并具有這些頁面被抓取的時間信息。面向?qū)嶋H應(yīng)用環(huán)境的網(wǎng)絡(luò)蜘蛛設(shè)計中，通常既包括累積式抓取，也包括增量式抓取的策略。累積式抓取一般用于數(shù)據(jù)集合的整體建立或大規(guī)模更新階段；而增量式抓取則主要針對數(shù)據(jù)集合的日常維護與即時更新。
  在確定了抓取策略之后，如何充分利用網(wǎng)絡(luò)帶寬，并合理確定網(wǎng)頁數(shù)據(jù)更新的時間點就成了網(wǎng)絡(luò)蜘蛛運行策略中的核心問題。
  總體而言，在合理利用軟硬件資源進行針對網(wǎng)絡(luò)數(shù)據(jù)的即時抓取方面，已經(jīng)形成了比較成熟的技術(shù)和實用性解決方案，這方面目前所需解決的主要問題，是如何更好地處理動態(tài)網(wǎng)絡(luò)數(shù)據(jù)問題（如數(shù)量越來越龐大的Web 2.0數(shù)據(jù)等），以及更好地根據(jù)網(wǎng)頁質(zhì)量修正抓取策略的問題。
  2．查詢服務(wù)模塊查詢服務(wù)模塊是指網(wǎng)絡(luò)信息檢索系統(tǒng)中，直接與用戶查詢需求交互的組成部分。從功能上講，這個模塊主要完成兩方面的任務(wù)：首先是用戶交互，即收集用戶查詢并用符合用戶行為習(xí)慣的方式對查詢結(jié)果進行反饋；其次是信息查詢和檢索，使用收集到的用戶查詢在由信息收集模塊抓取，并由信息處理模塊建立索引的網(wǎng)絡(luò)數(shù)據(jù)進行檢索。
  這其中涉及到的核心技術(shù)包括：檢索系統(tǒng)網(wǎng)絡(luò)服務(wù)的建立和維護、面向網(wǎng)絡(luò)信息的檢索模型建立等。網(wǎng)絡(luò)信息檢索系統(tǒng)嚴格意義上說也在提供一種網(wǎng)絡(luò)服務(wù)（Web Service），因此它的建立和運行、維護機制符合網(wǎng)絡(luò)服務(wù)系統(tǒng)的一般規(guī)律。
  但由于網(wǎng)絡(luò)信息檢索用戶行為習(xí)慣存在宏觀上的統(tǒng)計特性，系統(tǒng)的網(wǎng)絡(luò)服務(wù)也應(yīng)進行優(yōu)化以更好地適應(yīng)這種行為習(xí)慣。針對搜索引擎日志分析的工作說明，盡管網(wǎng)絡(luò)信息檢索用戶所提出的查詢數(shù)目異常繁雜，但搜索需求中的大多數(shù)是重復(fù)的，重復(fù)的比例超過用戶所提交查詢需求的70%以上乃至更多。
  因此在檢索系統(tǒng)的網(wǎng)絡(luò)服務(wù)部分加入某種類型的緩存機制就是非常必要的，對檢索結(jié)果序列或檢索結(jié)果頁面本身的緩存都有助于大大減輕網(wǎng)絡(luò)數(shù)據(jù)檢索的負擔。
  面向網(wǎng)絡(luò)信息的檢索模型研究一直是網(wǎng)絡(luò)信息相關(guān)研究的重點，研究的主要方法一般集中在以下兩點：改進傳統(tǒng)文本信息檢索技術(shù)以適應(yīng)網(wǎng)絡(luò)信息需求；不對傳統(tǒng)檢索技術(shù)進行改動，而嘗試對傳統(tǒng)檢索結(jié)果與網(wǎng)絡(luò)信息質(zhì)量評估結(jié)果進行融合。
  前者主要的研究工作包括對網(wǎng)絡(luò)半結(jié)構(gòu)化文本檢索方式的研究和對鏈接文本檢索方式的研究等；而后一方面主要的研究工作則集中在將網(wǎng)絡(luò)鏈接關(guān)系分析算法（如PageRank）的結(jié)果融合到傳統(tǒng)文本檢索結(jié)果模型的嘗試。而這方面最重要的研究平臺之一是TREC的網(wǎng)絡(luò)信息檢索（Web Track）和超大規(guī)模文本檢索（Terabyte Track）論壇。
  上述不少研究所基于的實驗數(shù)據(jù)都來自于這兩個論壇從2001年以來的積累，我們研究中涉及到的一部分實驗結(jié)果也是基于這個研究領(lǐng)域比較公認的平臺得出的。
  總體而言，面向用戶的查詢服務(wù)技術(shù)是網(wǎng)絡(luò)信息檢索技術(shù)研究的熱點之一，而主要的研究方向，則是基于傳統(tǒng)文本信息檢索技術(shù)，融入網(wǎng)絡(luò)信息檢索的應(yīng)用需求元素，借以建立新的檢索模型或?qū)υ心Ｐ瓦M行改進。
  當前，這方面研究集中在對用戶信息需求的挖掘與發(fā)現(xiàn)、改進網(wǎng)絡(luò)信息檢索系統(tǒng)的用戶交互方式等方面上。
  面向網(wǎng)絡(luò)信息的檢索模型研究一直是網(wǎng)絡(luò)信息相關(guān)研究的重點，研究的主要方法一般集中在以下兩點：改進傳統(tǒng)文本信息檢索技術(shù)以適應(yīng)網(wǎng)絡(luò)信息需求；不對傳統(tǒng)檢索技術(shù)進行改動，而嘗試對傳統(tǒng)檢索結(jié)果與網(wǎng)絡(luò)信息質(zhì)量評估結(jié)果進行融合。

上一篇：網(wǎng)絡(luò)營銷的前景及優(yōu)勢
下一篇：網(wǎng)站優(yōu)化關(guān)鍵詞的選擇

廣州聯(lián)享信息科技有限公司

地址：廣州市黃埔區(qū)銳豐中心1號樓922-929

業(yè)務(wù)熱線：020-32379980 售后專線：020-28999180

業(yè)務(wù)一部QQ：840908885 業(yè)務(wù)二部QQ：840908885

深圳聯(lián)享信息科技有限公司

地址：深圳市龍華新區(qū)布龍路榮應(yīng)大廈1105

業(yè)務(wù)熱線：15920999917 售后專線：15920999917

業(yè)務(wù)一部QQ：840908885 業(yè)務(wù)二部QQ：840908885

湖南巨牛信息科技有限公司

地址：長沙市雨花區(qū)德思勤城市廣場A8棟3024

業(yè)務(wù)熱線：0731-88612341 售后專線：13723888441

業(yè)務(wù)一部QQ：840908885 業(yè)務(wù)二部QQ：493102355

付款方式

對公帳戶:廣州聯(lián)享信息科技有限公司

開戶銀行：中國工商銀行廣州石牌支行賬號：3602 0986 0920 0130 274

銀行	戶名	開戶行	帳號
支付寶	廣州聯(lián)享信息科技有限公司	支付寶	123@a020.net
中國工商銀行	楊雄	廣州車陂支行	6212 2636 0202 8813 145
中國銀行	楊雄	長沙市賀龍支行	6217 8575 0002 4885 045
中國農(nóng)業(yè)銀行	楊雄	長沙天心區(qū)支行	6228 4810 9946 1564 479

亚洲综合一区成人在线,99久久免费观看少妇高潮,成人免费午夜在线视频,夜夜操狠狠操2026,中文字幕第一页欧美综合另类小说,人妻熟妇久久久久久,国内精品av一区二区三区,91人成视频在线观看,久久人视频这里只有精品

搜索引擎模塊組成

2022-10-12? 圍觀熱度 4611?網(wǎng)絡(luò)營銷

互聯(lián)網(wǎng)時代下的網(wǎng)站建設(shè)3大趨勢

個人站長做網(wǎng)站seo怎么變現(xiàn)？

互聯(lián)網(wǎng)營銷的方式

SEO和SEM有什么區(qū)別

企業(yè)做官網(wǎng)的必要性

如何讓創(chuàng)意網(wǎng)頁設(shè)計更別具一格

廣州聯(lián)享信息科技有限公司

深圳聯(lián)享信息科技有限公司

湖南巨牛信息科技有限公司

付款方式

亚洲综合一区成人在线,99久久免费观看少妇高潮,成人免费午夜在线视频,夜夜操狠狠操2026,中文字幕第一页欧美综合另类小说,人妻熟妇久久久久久,国内精品av一区二区三区,91人成视频在线观看,久久人视频这里只有精品

搜索引擎模塊組成

2022-10-12? 圍觀熱度 4611?網(wǎng)絡(luò)營銷

互聯(lián)網(wǎng)時代下的網(wǎng)站建設(shè)3大趨勢

個人站長做網(wǎng)站seo怎么變現(xiàn)？

互聯(lián)網(wǎng)營銷的方式

SEO和SEM有什么區(qū)別

企業(yè)做官網(wǎng)的必要性

如何讓創(chuàng)意網(wǎng)頁設(shè)計更別具一格

廣州聯(lián)享信息科技有限公司

深圳聯(lián)享信息科技有限公司

湖南巨牛信息科技有限公司

付款方式

個人站長做網(wǎng)站seo怎么變現(xiàn)？