YaCy是一個基于P2P原理的免費分布式搜索引擎。其核心是用Java編寫,該程序分布在數百臺計算機。每個YaCy點在互聯網上自主抓取,分析和索引到的網頁,并將索引結果儲存在一個公共數據庫(所謂的指數),其他YaCy點也使用P2P原理來共享。
YaCy網絡相較于半分布式搜索引擎,它具有分布式體系結構。所有的YaCy點都是平等的,不存在中央服務器。它是基于一個爬行模式或作為本地代理服務器在用戶電腦上運行,索引用戶訪問的網頁。它擁有有幾個機制來保護用戶隱私。
YaCy搜索引擎是基于以下四個要素:
1、爬蟲:一個搜索機器人,它可以抓取網頁并分析其內容。
2、索引:創建一個Reverse Word Index (RWI),即每一個字母都來自于RWI,里面包含相關的URL和排名信息列表。字母都保存在字母哈希表。
3、搜索和管理界面:一個本地HTTP與servlet的servlet引擎提供的網絡接口。
4、數據存儲:用于存儲分布式哈希表的Word Index索引數據庫。
相關導航
暫無評論...