Tag Archives: search

Oracle SES 的实现案例

Oracle Secure Enterprise Search 站点上提供了一篇白皮书: Implementing search.oracle.com – A Case Study 比较详细的介绍了 http://search.oracle.com 的实现。Oracle 通过这个站点提供对公司首页内容与 OTN 的搜索。不过既然是安全搜索,为什么不加入 Metalink 内容的搜索呢?
服务器用的两台 Dell PowerEdge 2850(机器可挺破)。每台配置是 2 颗 3G 的超线程 CPU 加上 8G 内存。存储是 RAID 5 方式。共有 4.3T 内部(? 这个机型最大支持 1.8TB SCSI 内部存储,其余就需要接外部存储了啊? )磁盘空间可用。没有说具体的存储设备或是连接方式。划分了 700G 给当前用。其余留作扩展。写了一个简单的脚本定期从 OS 端检查磁盘状态。
操作系统用的红帽子 RHEL 3 Update 2。内核是 2.4.21-37.ELhugemem ,能够充分利用大内存。接下来的设置我有一点疑问。前面说的 700g 空间挂在目录 /u02 下,而 SES 软件安装在 /u01 下。这个目录是单个磁盘分区上的–这似乎是一个单点啊!
Oracle SGA 设置了 2.5G 左右。当前已经索引了 35 万篇文档,数据库大小是 15G,Cache 文件 17G,Log(搜索的Log) 文件 1G。如果 Oracle 不做站外搜索的话,4.3 T 的总空间是绰绰有余。其实我倒是觉得 Oracle 有义务对站外的 Oracle 论坛等相关信息作一下专门的搜索,也算是对广大用户负责的一种手段。
负载均衡设备选用的是 F5(青春偶像 F4 的旁边, 呵呵)。示意图如下:
Oracle SES and F5 负载均衡
最后的监控方法也值得借鉴。
整个搜索站点构建中,软件成本的标准是: $30K/CPU 或者是 $60/命名用户 或是 $30/员工。两台机器上的 SES 需要 License 是 12 万美金。这个报价可不低啊。
-EOF-

Oracle SES 爬虫

百度认为企业搜索市场是鸡肋,可 Oracle 公司正在该领域投入重兵,磨刀霍霍。前几天,Oracle 公司率先使用自家产品 Oracle Secure Enterprise Search 打造自己的站内搜索:http://search.oracle.com
观察一下 Oracle Secure Enterprise Search(SES) 的爬虫:

"GET /OpenSource.htm HTTP/1.0" 200 7336 "-" \
"Oracle Secure Enterprise Search"
"GET /Publications.htm HTTP/1.0" 200 6959 "-" \
"Oracle Secure Enterprise Search"
"GET /OracleTech.htm HTTP/1.0" 200 14086 "-" \
"Oracle Secure Enterprise Search"
"GET /Others.htm HTTP/1.0" 200 5863 "-" \
"Oracle Secure Enterprise Search"
"GET /Others/Service.htm HTTP/1.0" 200 4268 "-" \
"Oracle Secure Enterprise Search"
"GET /Others/AboutMe.htm HTTP/1.0" 200 5186 "-" \
"Oracle Secure Enterprise Search"    

爬虫的名字就叫做 Oracle Secure Enterprise Search 。Web 日志上抓不到版本号。从 SES 服务器端的日志上可以得知目前的爬虫版本号为 10.1.6。
EOF

看图学 Oracle SES

刚才在线学习了一下 Oracle Secure Enterprise Search Administration Tutorial. 目前 Oracle 还不提供 Secure Enterprise Search 10g 的下载, 所以只能看看联机教程过点干瘾.
安装相对比较简单, 和普通的数据库安装很相似.类 Unix 服务器上需要修改核心参数, 最后系统会直接安装一个 DB 到服务器上.
Oracle Secure Enterprise Search 在 Linux 上安装时核心参数的设定
从教程中可以得知搜索引擎的基本由三部分构成:
Oracle数据库服务器 –管理存储与源数据以及搜索索引.
数据库 Listener –监听 Oracle Net 连接.
搜索中间层 — 监听来自 HTTP 的请求. 我从 URL 中判断其实是一个 HTMLDB . Secure Enterprise Search 的管理工具也通过这个中间层来进行.

继续阅读

吹牛的又来了:Google的技术比较落后

互联网的一个热闹之处就是可以随便吹牛,胡说没事儿,网民这么多,怎么都可以唬住几个人.看到了一则新闻:四通进军搜索 段永基收购超Google的第三代技术,其中让人震惊的是这段话:

其内部人士宣称,“这种搜索引擎比Google还要先进,是真正的第三代搜索技术”,“Google的技术比较落后,基本还是简单逻辑判断,而四通打算收购的技术是关联式概念判断”。

有些让人喷饭.Google 攥着大把的银子居然没发现比自己更好地技术,让段老板发现了。也难得都说段是中关村的”不倒翁”.

继续阅读