Tag Archives: SES

Oracle SES 的实现案例

Oracle Secure Enterprise Search 站点上提供了一篇白皮书: Implementing search.oracle.com – A Case Study 比较详细的介绍了 http://search.oracle.com 的实现。Oracle 通过这个站点提供对公司首页内容与 OTN 的搜索。不过既然是安全搜索,为什么不加入 Metalink 内容的搜索呢?
服务器用的两台 Dell PowerEdge 2850(机器可挺破)。每台配置是 2 颗 3G 的超线程 CPU 加上 8G 内存。存储是 RAID 5 方式。共有 4.3T 内部(? 这个机型最大支持 1.8TB SCSI 内部存储,其余就需要接外部存储了啊? )磁盘空间可用。没有说具体的存储设备或是连接方式。划分了 700G 给当前用。其余留作扩展。写了一个简单的脚本定期从 OS 端检查磁盘状态。
操作系统用的红帽子 RHEL 3 Update 2。内核是 2.4.21-37.ELhugemem ,能够充分利用大内存。接下来的设置我有一点疑问。前面说的 700g 空间挂在目录 /u02 下,而 SES 软件安装在 /u01 下。这个目录是单个磁盘分区上的–这似乎是一个单点啊!
Oracle SGA 设置了 2.5G 左右。当前已经索引了 35 万篇文档,数据库大小是 15G,Cache 文件 17G,Log(搜索的Log) 文件 1G。如果 Oracle 不做站外搜索的话,4.3 T 的总空间是绰绰有余。其实我倒是觉得 Oracle 有义务对站外的 Oracle 论坛等相关信息作一下专门的搜索,也算是对广大用户负责的一种手段。
负载均衡设备选用的是 F5(青春偶像 F4 的旁边, 呵呵)。示意图如下:
Oracle SES and F5 负载均衡
最后的监控方法也值得借鉴。
整个搜索站点构建中,软件成本的标准是: $30K/CPU 或者是 $60/命名用户 或是 $30/员工。两台机器上的 SES 需要 License 是 12 万美金。这个报价可不低啊。
-EOF-

Oracle SES 爬虫

百度认为企业搜索市场是鸡肋,可 Oracle 公司正在该领域投入重兵,磨刀霍霍。前几天,Oracle 公司率先使用自家产品 Oracle Secure Enterprise Search 打造自己的站内搜索:http://search.oracle.com
观察一下 Oracle Secure Enterprise Search(SES) 的爬虫:

"GET /OpenSource.htm HTTP/1.0" 200 7336 "-" \
"Oracle Secure Enterprise Search"
"GET /Publications.htm HTTP/1.0" 200 6959 "-" \
"Oracle Secure Enterprise Search"
"GET /OracleTech.htm HTTP/1.0" 200 14086 "-" \
"Oracle Secure Enterprise Search"
"GET /Others.htm HTTP/1.0" 200 5863 "-" \
"Oracle Secure Enterprise Search"
"GET /Others/Service.htm HTTP/1.0" 200 4268 "-" \
"Oracle Secure Enterprise Search"
"GET /Others/AboutMe.htm HTTP/1.0" 200 5186 "-" \
"Oracle Secure Enterprise Search"    

爬虫的名字就叫做 Oracle Secure Enterprise Search 。Web 日志上抓不到版本号。从 SES 服务器端的日志上可以得知目前的爬虫版本号为 10.1.6。
EOF

看图学 Oracle SES

刚才在线学习了一下 Oracle Secure Enterprise Search Administration Tutorial. 目前 Oracle 还不提供 Secure Enterprise Search 10g 的下载, 所以只能看看联机教程过点干瘾.
安装相对比较简单, 和普通的数据库安装很相似.类 Unix 服务器上需要修改核心参数, 最后系统会直接安装一个 DB 到服务器上.
Oracle Secure Enterprise Search 在 Linux 上安装时核心参数的设定
从教程中可以得知搜索引擎的基本由三部分构成:
Oracle数据库服务器 –管理存储与源数据以及搜索索引.
数据库 Listener –监听 Oracle Net 连接.
搜索中间层 — 监听来自 HTTP 的请求. 我从 URL 中判断其实是一个 HTMLDB . Secure Enterprise Search 的管理工具也通过这个中间层来进行.

继续阅读

Oracle Secure Enterprise Search 10g

Oracle 杀入了搜索领域。虽然 Google 在互联网搜索领域独领风骚, 但 Oracle 显然要在企业搜索领域力拔头筹。日前,Oracle 推出了号称划时代的产品:Oracle Secure Enterprise Search(SES) 10g。赶紧找来白皮书研究研究。
这个产品的名字值得捉摸:Security + Enterprise + Search + 10g.
Security Oracle 首先强调了这款产品的安全特性。可以安全的与 Oracle Internet Directory 同步;与微软的活动目录同步;查询结果与爬虫的选项以及索引数据都各自有一些安全特性。比如,关于查询,Oracle 引入了查询时验证的特性,未经授权的用户搜索特定信息的时候,他不应该看到的信息会被搜索引擎过滤掉。这个验证是动态的,用户友好程度应该不错,但是因为是动态验证,性能上会有影响。该特性可以和 ACL 验证方式结合使用,或者单独使用。
Enterprise 软件目标是企业客户。SES 可以处理企业内容几乎所有的数据源(Web Page/ Email /DB table/ API 定制的数据源)。这其中激动人心的是直接搜索数据库表。这应该是 Oracle 的强项,以前还没听说哪个企业产品是直接搜索 DB 内容的。SES 这个特定对很多潜在的企业用户来说是一个卖点。至于运行效率则不得而知。

继续阅读