TOP 第四章 之 保持统计信息时效性的策略

继续贴出 Troubleshooting Oracle Performance 一书第四章《系统和对象统计信息》的翻译稿的部分节录。在前面几章的部分章节放出来后,收到了很多朋友的意见和建议,在此一并谢过!翻译更多是考量译者的中文水平,现在我们几位译者对此是深有体会。本章初稿译者朱一(@mujiang)


保持统计信息时效性的策略(Strategies for Keeping Object Statistics Up-to-Date)

工具包dbms_stats提供了很多管理对象统计信息的功能。那么我们该如何使用它来达到最佳配置呢?这个问题很难回答。很可能就没有确定的答案。就是说,没有一种方式适用于所有情况。让我们研究一下该如何着手解决这个问题。

基本准则是,或许是最重要的一个,查询优化器需要通过对象统计信息知道数据在数据库里面是如何存储的。因此,修改数据以后,同样需要刷新对象统计信息。我提倡定期收集统计信息。反对者的理由是数据库运行好好的,没必要重新收集统计信息。这种策略引起的常见问题是,一些对象统计信息依赖于实际存储的数据值,比如修改了最大/最小值,这样的修改不会经常发生在一些典型的表里面,但是这些数据改变是危险的,它们被应用程序频繁的使用(引用过时的统计信息)。实践当中,太多的问题是因为对象统计信息过时引起的。

显而易见,反复收集静态数据的对象统计信息是没有意义的。只应该对统计信息陈旧的对象进行收集。所以,需要利用好每张表的修改次数的统计记录。这样,我们只需要收集哪些数据发生了显著变化的表的统计信息。默认情况下,当一个表里面有超过10%的行被修改后,就认为它的统计信息是过时的(陈旧的)。缺省值就不错,在Oracle 11g以后,这个缺省值可以修改。

收集统计信息的频率也值得探讨。从每个小时收集到每个月,或是更少,均看到过成功案例。其实这个真的依赖于数据。当用并不陈旧的表统计信息作为基准时,太长的时间间隔引起过多表的统计信息陈旧,就要花更多的时间收集统计信息。因此我喜欢收集得稍微频繁一些,分散负载,尽量缩短每次收集任务的时间。如果你的系统每天或每周有一些时段负荷比较低,就在这些时段运行计划的收集作业。如果你的系统是真正的7×24的系统,最好频繁的运行收集任务(注),每天运行多次,尽量多分散负载。

如果有好的理由不需要收集一些表的统计信息,在Oracle 10g以后,可以锁定对象统计信息。计划收集作业就会跳过这些对象。这样远远好于禁止收集整个数据库的统计信息。遗憾的是,在Oracle 9i中不能锁定对象统计信息,变通方法是,利用表的监控属性,禁止这些不需要收集统计信息的表的监控,收集模式(schema)或者数据库的统计信息的作业就会跳过这些表。

如果你有批处理任务一次加载、修改很多数据,干脆不要等待调度任务来收集这些对象的统计。直接将对这些对象的收集统计任务加到批处理任务的最后面。也就是说。如果你知道一些表的数据会被大量修改。修改完数据后,立刻收集对象统计信息。

从Oracle 10g开始,应该尽可能的利用默认的收集作业。为满足需求,应该进行检查默认的配置,如果必要的话,进行必要的变更。既然只有Oracle 11g以后可以在对象级别配置收集任务,你可以在缺省收集作业之前运行自定义的作业以收集一些有特殊需求的表的统计信息。这样,缺省收集作业仅操作统计信息过时的表,跳过有特殊需求的表。锁定特性也可以确保只有特定的收集作业才可以重新收集那些关键表的统计信息。

如果收集统计信息导致了低效的执行计划,有两个办法。一是恢复以前合适的统计信息来修复问题。二是诊断查询优化器为何使用新收集的统计信息得出了低效的执行计划。首先要检查统计信息是否正确的描述了数据的分布。比如,采样新的数据分布得到了不同的直方图。有可能是收集本身,或者是收集用到的一个参数的问题,导致了坏的统计信息。如果统计信息是可信的,有两种可能导致低效的执行计划:错误的配置了查询优化器,或者优化器犯了一个错误。对于后者我们无能为力,而对于前者,我们能找到解决办法。无论如何,你应该避免仓促的下结论,推断说是收集统计信息引起的问题,进而停止收集统计信息。

最佳实践是使用工具包dbms_stats收集对象统计信息。然而,有些情况下,正确的对象统计信息反而误导查询优化器。有一个常见的案例,比如历史数据必须保留很长一段时间(比如有些类型的数据在瑞士必须保留十年),如果随着时间的推移,数据分布基本不变,用工具包dbms_stats收集对象统计信息会运行良好。相反,如果每个时期有不同的数据分布,应用程序仅仅使用全部数据的一个子集,那么手工修改统计信息使它反映最相关的数据就是明智之举。换句话说,如果你知道工具包dbms_stats忽略了或者不能发现最相关的数据分布,告诉查询优化器回避对象统计信息就是恰当的。


注:对此,译者有不同的观点。对于比较繁忙的在线系统,数据变化可能频繁,但数据特征的变化未必频繁。不管如何,频繁收集统计与否,DBA 必需熟知两种可能带来的影响。(译者注)

EOF

九十年前的今天,是个特殊的日子。


3 thoughts on “TOP 第四章 之 保持统计信息时效性的策略

Leave a Reply

Your email address will not be published. Required fields are marked *