[简谈石油地质中数据处理的误区]
石油地质学数据处理的方法主要有图版法、统计法,演化剖面法等。这里主要谈统计法及演化剖面法目前存在的一些问题。
石油地质学用的最多的统计方法如平均值,直方图,回归分析,置信水平分析等。对于大量的数据,统计学认识地质数据规律的有效工具。不过,错误的运用统计学方法,也可能得出错误的结论。
首先,我们先来看一下统计方法的适用条件。讲一个简单的例子,比如我们要知道某一块岩石样品的质量,那么按照的正常的程序,我们可能会连续测量10次,然后对这10次测量结果进行平均,得出的值即是这块岩石的质量;当然我们也可以用高斯分布拟合,然后用中值来作为这块岩石的质量。再讲一个例子,比如我们要知道某一批黄豆单粒质量的分布情况,同样(这里我们且不考虑抽样的问题)我们先把每颗黄豆的质量测量出来,然后通过直方图分析,我们就可以得到这批黄豆单粒质量的分布情况。从以上两个例子,我们至少应该明白,统计学适用的前提是某一物体的同种属性或同一类物质的同种属性。比如,我们不能拿这块岩石10次的测量结果与另一块岩石或另一块蛋糕的10次测量结果进行统计分析来求得这块岩石的质量;同样的,在第二个例子中,我们不能把这批黄豆的单粒质量数据与别的如一批乒乓球的单粒质量数据放在一起来获得这批黄豆的质量分布情况——且称之为同一批黄豆原则。到目前为止,这个道理似乎很简单,相信不会有人对此存有疑问。
那么,我们来看看石油地质学中运用统计学的情况。比如,我们要统计某井段有机碳的分布。通常的做法我们可能把这口井的数据调出来,直接做个直方图。这样做看上去很自然,没什么问题。但是如果我们仔细检阅统计学适用的基本条件,我们可以发现这里面是有问题的。显然,如果我们的取样间隔不是等间距的话,则直方图的统计结果将完全取决于取样间隔小、取样密度大的那一段数据。这违反了同一批黄豆的原则。同样的,如果我们要统计这个井段有机碳的平均值的话,会有同样的问题。这种情况下,比较合理的一种做法是根据取样间隔对相应的数据进行加权后再进行统计分析。再比如,我们要统计某套烃源岩在某个层段HI(氢指数)的分布情况。现在我们手头上的数据是这套烃源岩所有探井的数据,每口井的取样间隔和取样密度都可能不同。如果我们直接把所有的单点数据汇总,然后做直方图统计分析就可能使结果反映的是某一个口的数据的情况——比如这口井有100个数据,而其它井的数据只有1~2条。这是问题之一,其次是我们还要考虑这些探井在平面分布是否均匀,如果不均匀,其结果也可能只反映这套烃源岩某个局部的分布情况。
关于回归分析的问题,参见“Kendall's robust line-fit与一般回归拟合的差异(最小二乘)”一文。
有一点值得注意的是,有时错误的使用统计也可能得到正确的规律,但是这种做法是很危险的。难保下一次也会正确。
最后再谈一个地质学上广泛应用却是“似是而非”的手法——演化剖面法。相信很多人有这样的经历:把S1(可溶烃)或氯仿沥青“A”的数据投到深度上,然后确定本区\本口井的排烃深度或生油窗——(国内)经典的生烃演化模式图。这个刹看上去好像也没什么问题。我们换个角度来看,从上到下是否属于同一套烃源岩,顶部的地层能否代表了深部地层的历史?如果你所遇到的盆地刚好上下有两套烃源岩,那么你极有可能得出上下两套烃源岩具有不同的生油窗或排烃深度——但这是同一个盆地!!实际上,经典的Tissot的生烃演化剖面决不是单井的剖面,而是一个盆地的综合分析结果(从盆地边部具有较低成熟度的到盆地中央高成熟区)。要做出Tissot的经典演化剖面图其实并不容易——在盆地边部可能找不到低成熟的烃源岩或者那里刚好没有探井。当然不是说这种剖面图完全不能做出来,还有其它变通的手段。
总结一下,废话了那么多,其实在石油地质上进行数据处理、查找规律,基本原则只有一条:样品分布是否均质,是否属于同一批黄豆,所分析的对象是相同的!![水南,2008年11月 更新]
计划中(其实计划很久了,一直没时间好好总结。石油地质应该好好利用数值模拟里的统计学方法论,在日益庞大的实验数据上,传统的方法不定奏效,统计学应该有一席之地): 地质统计学在石油地质数据处理上应用