<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE article PUBLIC "-//NLM//DTD Journal Publishing DTD v2.3 20070202//EN" "journalpublishing.dtd">
<article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xml:lang="en" article-type="research-article">
<front>
<journal-meta>
<journal-id journal-id-type="publisher-id">Information</journal-id>
<journal-title>Information</journal-title>
<issn pub-type="epub">2078-2489</issn>
<publisher>
<publisher-name>Molecular Diversity Preservation International (MDPI)</publisher-name></publisher></journal-meta>
<article-meta>
<article-id pub-id-type="doi">10.3390/info2010017</article-id>
<article-id pub-id-type="publisher-id">information-02-00017</article-id>
<article-categories>
<subj-group>
<subject>Article</subject></subj-group></article-categories>
<title-group>
<article-title>Empirical Information Metrics for Prediction Power and Experiment Planning</article-title></title-group>
<contrib-group>
<contrib contrib-type="author">
<name><surname>Lee</surname><given-names>Christopher</given-names></name><xref ref-type="aff" rid="af1-information-02-00017"><sup>1</sup></xref><xref ref-type="aff" rid="af2-information-02-00017"><sup>2</sup></xref><xref ref-type="aff" rid="af3-information-02-00017"><sup>3</sup></xref></contrib></contrib-group>
<aff id="af1-information-02-00017">
<label>1</label> Department of Chemistry &amp; Biochemistry, University of California, Los Angeles, CA 90095, USA</aff>
<aff id="af2-information-02-00017">
<label>2</label> Department of Computer Science, University of California, Los Angeles, CA 90095, USA</aff>
<aff id="af3-information-02-00017">
<label>3</label> Institute for Genomics &amp; Proteomics, University of California, Los Angeles, CA 90095, USA;E-Mail: <email>leec@chem.ucla.edu</email>; Tel: 310-825-7374; Fax: 310-206-7286</aff>
<pub-date pub-type="collection">
<year>2011</year></pub-date>
<pub-date pub-type="epub">
<day>11</day>
<month>01</month>
<year>2011</year></pub-date>
<volume>2</volume>
<issue>1</issue>
<fpage>17</fpage>
<lpage>40</lpage>
<history>
<date date-type="received">
<day>08</day>
<month>10</month>
<year>2010</year></date>
<date date-type="rev-recd">
<day>30</day>
<month>11</month>
<year>2010</year></date>
<date date-type="accepted">
<day>21</day>
<month>12</month>
<year>2010</year></date></history>
<permissions>
<copyright-statement>© 2011 by the author; licensee MDPI, Basel, Switzerland.</copyright-statement>
<copyright-year>2011</copyright-year>
<license>
<p>This article is an open access article distributed under the terms and conditions of the Creative Commons Attribution license (http://creativecommons.org/licenses/by/3.0/.)</p></license></permissions>
<abstract>
<p>In principle, information theory could provide useful metrics for statistical inference. In practice this is impeded by divergent assumptions: Information theory assumes the joint distribution of variables of interest is known, whereas in statistical inference it is hidden and is the goal of inference. To integrate these approaches we note a common theme they share, namely the measurement of <italic>prediction power</italic>. We generalize this concept as an information metric, subject to several requirements: Calculation of the metric must be <italic>objective</italic> or model-free; unbiased; convergent; probabilistically bounded; and low in computational complexity. Unfortunately, widely used model selection metrics such as Maximum Likelihood, the Akaike Information Criterion and Bayesian Information Criterion do not necessarily meet all these requirements. We define four distinct empirical information metrics measured via sampling, with explicit Law of Large Numbers convergence guarantees, which meet these requirements: <italic>I<sub>e</sub></italic>, <italic>the empirical information</italic>, a measure of average prediction power; <italic>I<sub>b</sub></italic>, the <italic>overfitting bias information</italic>, which measures selection bias in the modeling procedure; <italic>I<sub>p</sub></italic>, the <italic>potential information</italic>, which measures the total remaining information in the observations not yet discovered by the model; and <italic>I<sub>m</sub></italic>, the model information, which measures the model's extrapolation prediction power. Finally, we show that <italic>I<sub>p</sub></italic> + <italic>I<sub>e</sub></italic>, <italic>I<sub>p</sub></italic> + <italic>I<sub>m</sub></italic>, and <italic>I<sub>e</sub></italic> − <italic>I<sub>m</sub></italic> are fixed constants for a given observed dataset (i.e. prediction target), independent of the model, and thus represent a fundamental subdivision of the total information contained in the observations. We discuss the application of these metrics to modeling and experiment planning.</p></abstract>
<kwd-group>
<kwd>information metric</kwd>
<kwd>inference</kwd>
<kwd>sampling</kwd>
<kwd>entropy</kwd>
<kwd>experiment planning</kwd></kwd-group></article-meta></front>
<body>
<sec sec-type="intro">
<label>1.</label>
<title>Introduction</title>
<sec>
<label>1.1.</label>
<title>The Need for Information Metrics for Statistical and Scientific Inference</title>
<p>Information theory as formulated by Shannon [<xref ref-type="bibr" rid="b1-information-02-00017">1</xref>], Kolmogorov and others provides an elegant and general measure of information (or <italic>coupling</italic>) that connects variables. As such, it might be expected to be universally applied in the “Information Age” (see, for example, the many fields to which it is relevant, described in [<xref ref-type="bibr" rid="b2-information-02-00017">2</xref>]). Identifying and measuring such information connections between variables lies at the heart of statistical inference (infering accurate models from observed data) and more generally of scientific inference (performing experimental observations to infer increasingly accurate models of the universe).</p>
<p>However, information theory and statistical inference are founded on rather different assumptions, which greatly complicate their union. Statistical inference draws a fundamental distinction between <italic>observable variables</italic> (operationally defined measurements with no uncertainty) and <italic>hidden variables</italic> (everything else). It seeks to estimate the likely probability distribution of a hidden variable(s), given a sample of relevant observed variables. Note that from this point of view, probability distributions are themselves <italic>hidden</italic>, in the sense that they can only be <italic>estimated</italic> (with some uncertainty) via inference. For example, individual <italic>values</italic> of an observable are directly observed, but their true <italic>distribution</italic> can only be inferred from a sample of many such observations.</p>
<p>Traditional information theory, by contrast, assumes as a starting point that the joint probability distribution <italic>p</italic>(<italic>X</italic>, <italic>Y</italic>, <italic>Z</italic>…) of all variables of interest is completely known, as a prerequisite for beginning any calculations. The basic tools of information theory – entropy, relative entropy, and mutual information – are undefined unless one has the complete joint probability distribution <italic>p</italic>(<italic>X</italic>, <italic>Y</italic>, <italic>Z</italic>…) in hand. Unfortunately, in statistical inference problems this joint distribution is unknown, and precisely what we are trying to infer.</p>
<p>Thus, while “marrying” information theory and statistical inference is by no means impossible, it requires clear definitions that resolve these basic mismatches in assumptions. In this paper we begin from a common theme that is important to both areas, namely the concept of <italic>prediction power</italic>, <italic>i.e.</italic>, a model's ability to accurately predict values of the observable variable(s) that it seeks to model. Prediction power metrics have long played a central role in statistical inference. Fisher formulated prediction power as simply the total likelihood of the observations given the model, and developed Maximum Likelihood estimators, based on seeking the specific model that maximizes this quantity. This concept remains central to more recent metrics such as the Akaike Information Criterion (AIC) [<xref ref-type="bibr" rid="b3-information-02-00017">3</xref>], and Bayesian Information Criterion (BIC) [<xref ref-type="bibr" rid="b4-information-02-00017">4</xref>], which add “corrections” based on the number of model parameters being fitted.</p>
<p>In this paper we define a set of statistical inference metrics that constitute statistical inference proxies for the fundamental metrics of information theory (such as mutual information, entropy and relative entropy). We show that they are vitally useful for statistical inference (for precisely the same properties that make them useful in information theory), and highlight how they differ from standard statistical inference metrics such as Maximum Likelihood, AIC and BIC. We present a series of metrics that address distinct aspects of statistical inference:
<list list-type="bullet">
<list-item>
<p><italic>prediction power</italic>, as it is ordinarily defined, as the likelihood of future observations (e.g., “test data”) under a given set of conditions that we have already observed (“training data”).</p></list-item>
<list-item>
<p><italic>bias</italic>: A measure of any systematic difference in the model's prediction power on future observations <italic>vs.</italic> on its original training data.</p></list-item>
<list-item>
<p><italic>completeness</italic>: We define a modeling process as “complete” when no further improvements in prediction power are possible (by further varying the model). Thus a completeness metric measures how far we are from obtaining the best possible model.</p></list-item>
<list-item>
<p><italic>extrapolation prediction power</italic>:We will introduce a measure of how much the model's prediction power exceeds the prediction power of our existing observation density, when tested on future observations. If this value is zero (or negative) one might reasonably ask to what extent its results can truly be called a “prediction”, but instead are only a summary (or “interpolation”) of our existing observation data.</p></list-item></list></p>
<p>To clarify the challenges that such metrics must solve, we wish to highlight several characteristics they must possess:
<list list-type="bullet">
<list-item>
<p><italic>objective or model-free</italic>: One important criterion for such a metric is whether it is model-free; that is, whether or not the calculation of the metric itself involves a process that is equivalent to modeling. If it does, the metric can only be considered to yield a “subjective” evaluation – how well one model fits to the expectations of another model. By contrast, a model-free metric aims to provide an objective measure of how well a model fits the empirical observations. While this criterion may seem very simple to achieve, it poses several challenges, which this paper will seek to clarify.</p></list-item>
<list-item>
<p><italic>unbiased</italic>: Like any estimator calculated from a finite sample, these metrics are expected to suffer from <italic>sampling errors</italic>, but they must be mathematically proven to be free from <italic>systematic errors</italic>. Such errors are an important source of overfitting problems, and it is important to understand how to exclude them by design.</p></list-item>
<list-item>
<p><italic>convergent</italic>: These metrics must provide explicit Law of Large Numbers proofs that they converge to the “true value” in the limit of large sample size. The assumption of convergence is implicit in the use of many methods (such as Maximum Likelihood), but unfortunately the strict requirements of the Law of Large Numbers are sometimes violated, breaking the convergence guarantee and resulting in serious errors. To prevent this, a metric must explicitly show that it meets the requirements of the Law of Large Numbers.</p></list-item>
<list-item>
<p><italic>bounded</italic>: These metrics must provide probabilistic bounds that measure the level of uncertainty about their true value, based on the limitations of the available evidence.</p></list-item>
<list-item>
<p><italic>low computational complexity:</italic> Ideally, the computational complexity for computing a metric should be <italic>O</italic>(<italic>N</italic> log <italic>N</italic>) or better, where <italic>N</italic> is the number of sample observations.</p></list-item></list></p>
<p>In this paper we define a set of metrics obeying these requirements, which we shall refer to as <italic>empirical information metrics</italic>. As a Supplement, we also provide a tutorial that shows how to calculate these metrics using <bold>darwin</bold>, an easy-to-use open source software package in Python, available at <ext-link xlink:href="https://github.com/cjlee112/darwin" ext-link-type="uri">https://github.com/cjlee112/darwin</ext-link>.</p></sec></sec>
<sec>
<label>2.</label>
<title>Empirical Information</title>
<sec>
<label>2.1.</label>
<title>Standard Prediction Power Metrics</title>
<p>Fisher defined the prediction power of a model Ψ for an observable variable <italic>X</italic> in terms of the total likelihood of a sample of independent and identically distributed (I.I.D.) draws <italic>X</italic><sub>1</sub>,<italic>X</italic><sub>2</sub>, …<italic>X<sub>n</sub></italic>
<disp-formula id="FD1">
<mml:math id="mm1" display="block">
<mml:semantics id="sm1">
<mml:mrow>
<mml:mi>p</mml:mi>
<mml:mrow>
<mml:mo>(</mml:mo>
<mml:mrow>
<mml:msub>
<mml:mi>X</mml:mi>
<mml:mn>1</mml:mn></mml:msub>
<mml:mo>,</mml:mo>
<mml:msub>
<mml:mi>X</mml:mi>
<mml:mn>2</mml:mn></mml:msub>
<mml:mo>,</mml:mo>
<mml:mo>…</mml:mo>
<mml:msub>
<mml:mi>X</mml:mi>
<mml:mi>n</mml:mi></mml:msub>
<mml:mrow>
<mml:mo>|</mml:mo>
<mml:mo>Ψ</mml:mo></mml:mrow></mml:mrow>
<mml:mo>)</mml:mo></mml:mrow>
<mml:mo>=</mml:mo>
<mml:munderover>
<mml:mo>∏</mml:mo>
<mml:mrow>
<mml:mi>i</mml:mi>
<mml:mo>=</mml:mo>
<mml:mn>1</mml:mn></mml:mrow>
<mml:mi>n</mml:mi></mml:munderover>
<mml:mo>Ψ</mml:mo>
<mml:mrow>
<mml:mo>(</mml:mo>
<mml:mrow>
<mml:msub>
<mml:mi>X</mml:mi>
<mml:mi>i</mml:mi></mml:msub></mml:mrow>
<mml:mo>)</mml:mo></mml:mrow>
<mml:mo>=</mml:mo>
<mml:mo>exp</mml:mo>
<mml:mspace width="0.2em"/>
<mml:mrow>
<mml:mo>(</mml:mo>
<mml:mrow>
<mml:munderover>
<mml:mo>∑</mml:mo>
<mml:mrow>
<mml:mi>i</mml:mi>
<mml:mo>=</mml:mo>
<mml:mn>1</mml:mn></mml:mrow>
<mml:mi>n</mml:mi></mml:munderover>
<mml:mrow>
<mml:mo>log</mml:mo>
<mml:mspace width="0.2em"/>
<mml:mo>Ψ</mml:mo>
<mml:mrow>
<mml:mo>(</mml:mo>
<mml:mrow>
<mml:msub>
<mml:mi>X</mml:mi>
<mml:mi>i</mml:mi></mml:msub></mml:mrow>
<mml:mo>)</mml:mo></mml:mrow></mml:mrow></mml:mrow>
<mml:mo>)</mml:mo></mml:mrow>
<mml:mo>=</mml:mo>
<mml:mo>exp</mml:mo>
<mml:mrow>
<mml:mo>(</mml:mo>
<mml:mrow>
<mml:mi>n</mml:mi>
<mml:mover accent="true">
<mml:mi>L</mml:mi>
<mml:mo>¯</mml:mo></mml:mover></mml:mrow>
<mml:mo>)</mml:mo></mml:mrow></mml:mrow></mml:semantics></mml:math></disp-formula>where we adopt the convention Ψ(<italic>X</italic>) ≡ <italic>p</italic>(<italic>X</italic>|Ψ) as a shorthand for the probability of an observation given a model, and define the log-likelihood <italic>L</italic> = log Ψ(<italic>X</italic>). We follow the standard notation <italic>L̅</italic> to indicate its sample mean. Note that we will sometimes write <italic>L</italic>(Ψ) to emphasize that <italic>L</italic> is a function of the specific model we are computing.</p>
<p>Fisher's Maximum Likelihood method seeks the model that maximizes the total likelihood or, equivalently, the sample average log-likelihood <italic>L̅</italic>. Similarly, minimizing the Akaike Information Criterion (AIC) [<xref ref-type="bibr" rid="b3-information-02-00017">3</xref>]
<disp-formula id="FD2">
<mml:math id="mm2" display="block">
<mml:semantics id="sm2">
<mml:mrow>
<mml:mtext mathvariant="italic">AIC</mml:mtext>
<mml:mo>=</mml:mo>
<mml:mn>2</mml:mn>
<mml:mi>k</mml:mi>
<mml:mo>-</mml:mo>
<mml:mn>2</mml:mn>
<mml:mo>log</mml:mo>
<mml:mo> </mml:mo>
<mml:mi>p</mml:mi>
<mml:mrow>
<mml:mo>(</mml:mo>
<mml:mrow>
<mml:msub>
<mml:mi>x</mml:mi>
<mml:mn>1</mml:mn></mml:msub>
<mml:mo>,</mml:mo>
<mml:msub>
<mml:mi>x</mml:mi>
<mml:mn>2</mml:mn></mml:msub>
<mml:mo>,</mml:mo>
<mml:mo>…</mml:mo>
<mml:msub>
<mml:mi>x</mml:mi>
<mml:mi>n</mml:mi></mml:msub>
<mml:mrow>
<mml:mo>|</mml:mo>
<mml:mo>Ψ</mml:mo></mml:mrow></mml:mrow>
<mml:mo>)</mml:mo></mml:mrow>
<mml:mo>=</mml:mo>
<mml:mn>2</mml:mn>
<mml:mi>k</mml:mi>
<mml:mo>-</mml:mo>
<mml:mn>2</mml:mn>
<mml:mi>n</mml:mi>
<mml:mover accent="true">
<mml:mi>L</mml:mi>
<mml:mo>¯</mml:mo></mml:mover></mml:mrow></mml:semantics></mml:math></disp-formula>or the Bayesian Information Criterion (BIC) [<xref ref-type="bibr" rid="b4-information-02-00017">4</xref>]
<disp-formula id="FD3">
<mml:math id="mm3" display="block">
<mml:semantics id="sm3">
<mml:mrow>
<mml:mtext mathvariant="italic">BIC</mml:mtext>
<mml:mo>=</mml:mo>
<mml:mi>K</mml:mi>
<mml:mo>log</mml:mo>
<mml:mi>n</mml:mi>
<mml:mo>-</mml:mo>
<mml:mn>2</mml:mn>
<mml:mi>n</mml:mi>
<mml:mover accent="true">
<mml:mi>L</mml:mi>
<mml:mo>¯</mml:mo></mml:mover></mml:mrow></mml:semantics></mml:math></disp-formula>again seeks to maximize the prediction power <italic>L̅</italic> while explicitly correcting for model complexity expressed as <italic>k</italic>, the number of free parameters in the model Ψ.</p>
<p>Vapnik-Chervonenkis theory also supplies a correction factor that penalizes model complexity for classifier problems [<xref ref-type="bibr" rid="b6-information-02-00017">6</xref>]. For example, consider the simplest case of a binary classifier that predicts the class of each data point with a confidence factor <italic>C</italic> (by assigning that class a likelihood of 
<inline-formula>
<mml:math id="mm4" display="inline">
<mml:semantics id="sm4">
<mml:mrow>
<mml:mn>1</mml:mn>
<mml:mo>-</mml:mo>
<mml:mfrac>
<mml:mn>1</mml:mn>
<mml:mi>C</mml:mi></mml:mfrac></mml:mrow></mml:semantics></mml:math></inline-formula>, and the other class a likelihood of 
<inline-formula>
<mml:math id="mm5" display="inline">
<mml:semantics id="sm5">
<mml:mrow>
<mml:mfrac>
<mml:mn>1</mml:mn>
<mml:mi>C</mml:mi></mml:mfrac></mml:mrow></mml:semantics></mml:math></inline-formula>). In this case the classification error probability on the training data, <italic>R<sub>train</sub></italic>, converges for large <italic>C</italic> to 
<inline-formula>
<mml:math id="mm6" display="inline">
<mml:semantics id="sm6">
<mml:mrow>
<mml:msub>
<mml:mi>R</mml:mi>
<mml:mrow>
<mml:mtext mathvariant="italic">train</mml:mtext></mml:mrow></mml:msub>
<mml:mo>→</mml:mo>
<mml:mo>-</mml:mo>
<mml:mrow>
<mml:mover accent="true">
<mml:mi>L</mml:mi>
<mml:mo>¯</mml:mo></mml:mover>
<mml:mo>/</mml:mo>
<mml:mrow>
<mml:mo>log</mml:mo>
<mml:mi>C</mml:mi></mml:mrow></mml:mrow></mml:mrow></mml:semantics></mml:math></inline-formula>, and structural risk minimization indicates choosing the model that minimizes the upper bound of the classification error probability:
<disp-formula id="FD4">
<mml:math id="mm7" display="block">
<mml:semantics id="sm7">
<mml:mrow>
<mml:msub>
<mml:mi>R</mml:mi>
<mml:mrow>
<mml:mtext mathvariant="italic">VC</mml:mtext></mml:mrow></mml:msub>
<mml:mo>=</mml:mo>
<mml:msqrt>
<mml:mrow>
<mml:mfrac>
<mml:mrow>
<mml:mi>h</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:mn>1</mml:mn>
<mml:mo>+</mml:mo>
<mml:mo>log</mml:mo>
<mml:mfrac>
<mml:mrow>
<mml:mn>2</mml:mn>
<mml:mi>n</mml:mi></mml:mrow>
<mml:mi>h</mml:mi></mml:mfrac></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow>
<mml:mo>-</mml:mo>
<mml:mo>log</mml:mo>
<mml:mfrac>
<mml:mi>n</mml:mi>
<mml:mn>4</mml:mn></mml:mfrac></mml:mrow>
<mml:mi>n</mml:mi></mml:mfrac></mml:mrow></mml:msqrt>
<mml:mo>-</mml:mo>
<mml:mfrac>
<mml:mover accent="true">
<mml:mi>L</mml:mi>
<mml:mo>¯</mml:mo></mml:mover>
<mml:mrow>
<mml:mo>log</mml:mo>
<mml:mi>C</mml:mi></mml:mrow></mml:mfrac></mml:mrow></mml:semantics></mml:math></disp-formula> where <italic>h</italic> is the Vapnik-Chervonenkis (VC) dimension of the model (a measure of model complexity), and <italic>η</italic> is the desired level of confidence for the probabilistic bound.</p></sec>
<sec>
<label>2.2.</label>
<title>Prediction Power and the Law of Large Numbers</title>
<p>These metrics are best understood by highlighting the critical role that the Law of Large Numbers plays in inference metrics. Say we want to find a model Ψ that maximizes the total likelihood of many draws of <italic>X</italic>, or equivalently the expectation value of the log-likelihood, which depends on the true distribution Ω(<italic>X</italic>):
<disp-formula id="FD5">
<mml:math id="mm8" display="block">
<mml:semantics id="sm8">
<mml:mrow>
<mml:mi>E</mml:mi>
<mml:mrow>
<mml:mo>(</mml:mo>
<mml:mi>L</mml:mi>
<mml:mo>)</mml:mo></mml:mrow>
<mml:mo>≡</mml:mo>
<mml:munder>
<mml:mo>∑</mml:mo>
<mml:mi>X</mml:mi></mml:munder>
<mml:mrow>
<mml:mo>Ω</mml:mo>
<mml:mrow>
<mml:mo>(</mml:mo>
<mml:mi>X</mml:mi>
<mml:mo>)</mml:mo></mml:mrow></mml:mrow>
<mml:mo>log</mml:mo>
<mml:mspace width="0.2em"/>
<mml:mo>Ψ</mml:mo>
<mml:mrow>
<mml:mo>(</mml:mo>
<mml:mi>X</mml:mi>
<mml:mo>)</mml:mo></mml:mrow></mml:mrow></mml:semantics></mml:math></disp-formula>where the summation is over all possible values of <italic>X</italic> (for a continuous variable the summation is replaced by an integral).</p>
<p>Since we do not know the true distribution Ω(<italic>X</italic>) we cannot use this definition directly. However, we can apply the Law of Large Numbers (LLN) to the log-likelihood of a sample of observations, whose sample average must converge
<disp-formula id="FD6">
<mml:math id="mm9" display="block">
<mml:semantics id="sm9">
<mml:mrow>
<mml:mover accent="true">
<mml:mi>L</mml:mi>
<mml:mo>¯</mml:mo></mml:mover>
<mml:mo>=</mml:mo>
<mml:mfrac>
<mml:mn>1</mml:mn>
<mml:mi>n</mml:mi></mml:mfrac>
<mml:munderover>
<mml:mo>∑</mml:mo>
<mml:mrow>
<mml:mi>i</mml:mi>
<mml:mo>=</mml:mo>
<mml:mn>1</mml:mn></mml:mrow>
<mml:mi>n</mml:mi></mml:munderover>
<mml:mrow>
<mml:msub>
<mml:mi>L</mml:mi>
<mml:mi>i</mml:mi></mml:msub></mml:mrow>
<mml:mo>=</mml:mo>
<mml:mfrac>
<mml:mn>1</mml:mn>
<mml:mi>n</mml:mi></mml:mfrac>
<mml:munderover>
<mml:mo>∑</mml:mo>
<mml:mrow>
<mml:mi>i</mml:mi>
<mml:mo>=</mml:mo>
<mml:mn>1</mml:mn></mml:mrow>
<mml:mi>n</mml:mi></mml:munderover>
<mml:mrow>
<mml:mo>log</mml:mo>
<mml:mspace width="0.2em"/>
<mml:mo>Ψ</mml:mo>
<mml:mrow>
<mml:mo>(</mml:mo>
<mml:mrow>
<mml:msub>
<mml:mi>X</mml:mi>
<mml:mi>i</mml:mi></mml:msub></mml:mrow>
<mml:mo>)</mml:mo></mml:mrow></mml:mrow>
<mml:mover>
<mml:mo stretchy="true">→</mml:mo>
<mml:mrow>
<mml:mtext mathvariant="italic">LLN</mml:mtext></mml:mrow></mml:mover>
<mml:mspace width="0.2em"/>
<mml:mi>E</mml:mi>
<mml:mrow>
<mml:mo>(</mml:mo>
<mml:mi>L</mml:mi>
<mml:mo>)</mml:mo></mml:mrow></mml:mrow></mml:semantics></mml:math></disp-formula> as <italic>n</italic> → ∞, if the sample values <italic>L<sub>i</sub></italic> are conditionally independent given Ω and identically distributed as <italic>L</italic>, and the variance <italic>Var</italic>(<italic>L</italic>) is finite (the LLN can also be extended to the case of exchangeable observations [<xref ref-type="bibr" rid="b5-information-02-00017">5</xref>]). Specifically, the Law of Large Numbers guarantees a probabilistic bound on the sample estimator's deviation from the expectation value:
<disp-formula id="FD7">
<mml:math id="mm10" display="block">
<mml:semantics id="sm10">
<mml:mrow>
<mml:mi>p</mml:mi>
<mml:mrow>
<mml:mo>(</mml:mo>
<mml:mrow>
<mml:mrow>
<mml:mo>|</mml:mo>
<mml:mrow>
<mml:mover accent="true">
<mml:mi>L</mml:mi>
<mml:mo>¯</mml:mo></mml:mover>
<mml:mo>-</mml:mo>
<mml:mrow>
<mml:mrow>
<mml:mi>E</mml:mi>
<mml:mrow>
<mml:mo>(</mml:mo>
<mml:mi>L</mml:mi>
<mml:mo>)</mml:mo></mml:mrow></mml:mrow>
<mml:mo>|</mml:mo></mml:mrow></mml:mrow></mml:mrow>
<mml:mo>≥</mml:mo>
<mml:mi>δ</mml:mi></mml:mrow>
<mml:mo>)</mml:mo></mml:mrow>
<mml:mo>≤</mml:mo>
<mml:mfrac>
<mml:mrow>
<mml:mtext mathvariant="italic">Var</mml:mtext>
<mml:mrow>
<mml:mo>(</mml:mo>
<mml:mi>L</mml:mi>
<mml:mo>)</mml:mo></mml:mrow></mml:mrow>
<mml:mrow>
<mml:mi>n</mml:mi>
<mml:msup>
<mml:mi>δ</mml:mi>
<mml:mn>2</mml:mn></mml:msup></mml:mrow></mml:mfrac></mml:mrow></mml:semantics></mml:math></disp-formula> So we obtain a lower bound estimate for <italic>L</italic> at confidence level 1 − <italic>∈</italic> of
<disp-formula id="FD8">
<mml:math id="mm11" display="block">
<mml:semantics id="sm11">
<mml:mrow>
<mml:msub>
<mml:mi>L</mml:mi>
<mml:mo>∈</mml:mo></mml:msub>
<mml:mo>=</mml:mo>
<mml:mover accent="true">
<mml:mi>L</mml:mi>
<mml:mo>¯</mml:mo></mml:mover>
<mml:mo>-</mml:mo>
<mml:msqrt>
<mml:mrow>
<mml:mfrac>
<mml:mrow>
<mml:mtext mathvariant="italic">Var</mml:mtext>
<mml:mrow>
<mml:mo>(</mml:mo>
<mml:mi>L</mml:mi>
<mml:mo>)</mml:mo></mml:mrow></mml:mrow>
<mml:mrow>
<mml:mi>n</mml:mi>
<mml:mspace width="0.3em"/>
<mml:mi>∈</mml:mi></mml:mrow></mml:mfrac></mml:mrow></mml:msqrt></mml:mrow></mml:semantics></mml:math></disp-formula>Note that to actually compute this lower bound, we must also use our sample to estimate the variance, which adds another source of error. In practice this is usually not a problem, except for pathological cases (e.g., <italic>Var</italic>(<italic>L</italic>) → ∞). For example, to calculate a 95% confidence lower bound:
<disp-formula id="FD9">
<mml:math id="mm12" display="block">
<mml:semantics id="sm12">
<mml:mrow>
<mml:msub>
<mml:mi>L</mml:mi>
<mml:mrow>
<mml:mn>0.05</mml:mn></mml:mrow></mml:msub>
<mml:mo>=</mml:mo>
<mml:mover accent="true">
<mml:mi>L</mml:mi>
<mml:mo>¯</mml:mo></mml:mover>
<mml:mo>-</mml:mo>
<mml:msqrt>
<mml:mrow>
<mml:mfrac>
<mml:mrow>
<mml:mover accent="true">
<mml:mrow>
<mml:mtext mathvariant="italic">Var</mml:mtext>
<mml:mrow>
<mml:mo>(</mml:mo>
<mml:mi>L</mml:mi>
<mml:mo>)</mml:mo></mml:mrow></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover></mml:mrow>
<mml:mrow>
<mml:mi>n</mml:mi>
<mml:mrow>
<mml:mo>(</mml:mo>
<mml:mrow>
<mml:mn>0.05</mml:mn></mml:mrow>
<mml:mo>)</mml:mo></mml:mrow></mml:mrow></mml:mfrac></mml:mrow></mml:msqrt></mml:mrow></mml:semantics></mml:math></disp-formula> where we have used the shorthand notation 
<inline-formula>
<mml:math id="mm13" display="inline">
<mml:semantics id="sm13">
<mml:mrow>
<mml:mover accent="true">
<mml:mrow>
<mml:mtext mathvariant="italic">Var</mml:mtext>
<mml:mrow>
<mml:mo>(</mml:mo>
<mml:mi>L</mml:mi>
<mml:mo>)</mml:mo></mml:mrow></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover>
<mml:mo>=</mml:mo>
<mml:mover accent="true">
<mml:mrow>
<mml:msup>
<mml:mrow>
<mml:mrow>
<mml:mo>(</mml:mo>
<mml:mrow>
<mml:mi>L</mml:mi>
<mml:mo>-</mml:mo>
<mml:mover accent="true">
<mml:mi>L</mml:mi>
<mml:mo>¯</mml:mo></mml:mover></mml:mrow>
<mml:mo>)</mml:mo></mml:mrow></mml:mrow>
<mml:mn>2</mml:mn></mml:msup></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover></mml:mrow></mml:semantics></mml:math></inline-formula> to denote the sample estimator of the variance. Note that since the Law of Large Numbers is a general result (<italic>i.e.</italic>, it holds over all possible distributions), it does not necessarily represent the best confidence interval that one can obtain for a specific case. Other methods for computing a confidence interval such as resampling [<xref ref-type="bibr" rid="b7-information-02-00017">7</xref>], can usually improve on (<italic>i.e.</italic>, increase) this lower bound, but we will not explore such implementation details in this paper.</p>
<p>Since the <italic>X<sub>i</sub></italic> are indeed conditionally independent given Ω and identically distributed as <italic>X</italic>, we expect for large sample size <italic>n</italic> to be able to use <italic>L̅</italic> as a proxy for <italic>E</italic>(<italic>L</italic>). In that case maximizing <italic>L̅</italic> also maximizes <italic>E</italic>(<italic>L</italic>), which it is convenient to separate into one term dependent only on Ω and another term dependent on Ψ:
<disp-formula id="FD10">
<mml:math id="mm14" display="block">
<mml:semantics id="sm14">
<mml:mrow>
<mml:mi>E</mml:mi>
<mml:mrow>
<mml:mo>(</mml:mo>
<mml:mrow>
<mml:mi>L</mml:mi>
<mml:mrow>
<mml:mo>(</mml:mo>
<mml:mo>Ψ</mml:mo>
<mml:mo>)</mml:mo></mml:mrow></mml:mrow>
<mml:mo>)</mml:mo></mml:mrow>
<mml:mo>=</mml:mo>
<mml:munder>
<mml:mo>∑</mml:mo>
<mml:mi>X</mml:mi></mml:munder>
<mml:mrow>
<mml:mo>Ω</mml:mo>
<mml:mrow>
<mml:mo>(</mml:mo>
<mml:mi>X</mml:mi>
<mml:mo>)</mml:mo></mml:mrow></mml:mrow>
<mml:mspace width="0.2em"/>
<mml:mrow>
<mml:mo>(</mml:mo>
<mml:mrow>
<mml:mo>log</mml:mo>
<mml:mfrac>
<mml:mrow>
<mml:mo>Ψ</mml:mo>
<mml:mrow>
<mml:mo>(</mml:mo>
<mml:mi>X</mml:mi>
<mml:mo>)</mml:mo></mml:mrow></mml:mrow>
<mml:mrow>
<mml:mo>Ω</mml:mo>
<mml:mrow>
<mml:mo>(</mml:mo>
<mml:mi>X</mml:mi>
<mml:mo>)</mml:mo></mml:mrow></mml:mrow></mml:mfrac>
<mml:mo>+</mml:mo>
<mml:mo>log</mml:mo>
<mml:mo>Ω</mml:mo>
<mml:mrow>
<mml:mo>(</mml:mo>
<mml:mi>X</mml:mi>
<mml:mo>)</mml:mo></mml:mrow></mml:mrow>
<mml:mo>)</mml:mo></mml:mrow>
<mml:mo>=</mml:mo>
<mml:munder>
<mml:mo>∑</mml:mo>
<mml:mi>X</mml:mi></mml:munder>
<mml:mrow>
<mml:mo>Ω</mml:mo>
<mml:mrow>
<mml:mo>(</mml:mo>
<mml:mi>X</mml:mi>
<mml:mo>)</mml:mo></mml:mrow></mml:mrow>
<mml:mspace width="0.2em"/>
<mml:mrow>
<mml:mo>(</mml:mo>
<mml:mrow>
<mml:mo>-</mml:mo>
<mml:mo>log</mml:mo>
<mml:mfrac>
<mml:mrow>
<mml:mo>Ω</mml:mo>
<mml:mrow>
<mml:mo>(</mml:mo>
<mml:mi>X</mml:mi>
<mml:mo>)</mml:mo></mml:mrow></mml:mrow>
<mml:mrow>
<mml:mo>Ψ</mml:mo>
<mml:mrow>
<mml:mo>(</mml:mo>
<mml:mi>X</mml:mi>
<mml:mo>)</mml:mo></mml:mrow></mml:mrow></mml:mfrac>
<mml:mo>+</mml:mo>
<mml:mo>log</mml:mo>
<mml:mo>Ω</mml:mo>
<mml:mrow>
<mml:mo>(</mml:mo>
<mml:mi>X</mml:mi>
<mml:mo>)</mml:mo></mml:mrow></mml:mrow>
<mml:mo>)</mml:mo></mml:mrow>
<mml:mo>=</mml:mo>
<mml:mo>-</mml:mo>
<mml:mi>D</mml:mi>
<mml:mrow>
<mml:mo>(</mml:mo>
<mml:mrow>
<mml:mrow>
<mml:mo>Ω</mml:mo>
<mml:mo>|</mml:mo></mml:mrow>
<mml:mrow>
<mml:mo>|</mml:mo>
<mml:mo>Ψ</mml:mo></mml:mrow></mml:mrow>
<mml:mo>)</mml:mo></mml:mrow>
<mml:mo>-</mml:mo>
<mml:mi>H</mml:mi>
<mml:mrow>
<mml:mo>(</mml:mo>
<mml:mrow>
<mml:mo>Ω</mml:mo>
<mml:mrow>
<mml:mo>(</mml:mo>
<mml:mi>X</mml:mi>
<mml:mo>)</mml:mo></mml:mrow></mml:mrow>
<mml:mo>)</mml:mo></mml:mrow></mml:mrow></mml:semantics></mml:math></disp-formula> where <italic>D</italic>(Ω‖Ψ) is the relative entropy of model Ψ relative to the true distribution Ω, and <italic>H</italic>(Ω(<italic>X</italic>)) is the entropy of the true distribution Ω. Since the right hand term is constant with respect to Ψ, this expression is maximized when <italic>D</italic>(Ω‖Ψ) is minimized, which occurs iff Ψ(X) = Ω(X) for all values of <italic>X</italic>. This guarantees that choosing the model <italic>Ψ*</italic> that maximizes <italic>E</italic>(<italic>L</italic>) will indeed identify the correct model Ψ*(<italic>X</italic>) = Ω(<italic>X</italic>).</p></sec>
<sec>
<label>2.3.</label>
<title>The Problem of Selection Bias</title>
<p>Unfortunately, there is a catch. This guarantee can only be extended to maximization of the sample log-likelihood <italic>L̅</italic>, if the <italic>L<sub>i</sub></italic> are identically distributed as <italic>L.</italic> All of these metrics (<italic>L̅</italic>, AIC, BIC) were designed for use with <italic>model selection</italic>; that is, we compute the metric for each of a large set of models, then select the model that maximizes the likelihood (or minimizes the AIC or BIC). And the very nature of model selection introduces bias into the sample likelihoods [<xref ref-type="bibr" rid="b8-information-02-00017">8</xref>]. Briefly, if the model Ψ was chosen specifically to <italic>maximize</italic> the values <italic>L<sub>i</sub></italic>, we <italic>cannot</italic> assume that the <italic>L<sub>i</sub></italic> are identically distributed as <italic>L.</italic> Indeed, we expect that the <italic>L<sub>i</sub></italic> will be biased to higher values than <italic>L</italic> in general. Therefore the Law of Large Numbers convergence guarantee collapses, and we cannot prove that model selection using <italic>L̅</italic> will yield the true distribution Ω. Vapnik-Chervonenkis theory seeks to protect against this bias by deriving an upper bound on the possible error due to selection bias [<xref ref-type="bibr" rid="b6-information-02-00017">6</xref>], based on the model's VC dimension.</p>
<p>First, let's examine this problem from an empirical point of view, by simply defining a metric for measuring the bias. We define a <italic>test data criterion</italic>:
<list list-type="bullet">
<list-item>
<p>a set of sample values 
<inline-formula>
<mml:math id="mm15" display="inline">
<mml:semantics id="sm15">
<mml:mrow>
<mml:msubsup>
<mml:mi>X</mml:mi>
<mml:mn>1</mml:mn>
<mml:mo>′</mml:mo></mml:msubsup>
<mml:mo>,</mml:mo>
<mml:msubsup>
<mml:mi>X</mml:mi>
<mml:mn>2</mml:mn>
<mml:mo>′</mml:mo></mml:msubsup>
<mml:mo>,</mml:mo>
<mml:mo>…</mml:mo>
<mml:msubsup>
<mml:mi>X</mml:mi>
<mml:mi>m</mml:mi>
<mml:mo>′</mml:mo></mml:msubsup></mml:mrow></mml:semantics></mml:math></inline-formula> are valid <italic>test data</italic> for a model Φ predicting an observable <italic>X</italic> if the 
<inline-formula>
<mml:math id="mm16" display="inline">
<mml:semantics id="sm16">
<mml:mrow>
<mml:msubsup>
<mml:mi>X</mml:mi>
<mml:mi>i</mml:mi>
<mml:mo>′</mml:mo></mml:msubsup></mml:mrow></mml:semantics></mml:math></inline-formula> are exchangeable, identically distributed as <italic>X</italic>, and conditionally independent of Φ given the true distribution Ω, <italic>i.e.</italic>, 
<inline-formula>
<mml:math id="mm17" display="inline">
<mml:semantics id="sm17">
<mml:mrow>
<mml:mi>P</mml:mi>
<mml:mrow>
<mml:mo>(</mml:mo>
<mml:mrow>
<mml:msubsup>
<mml:mi>X</mml:mi>
<mml:mi>i</mml:mi>
<mml:mo>′</mml:mo></mml:msubsup>
<mml:mo>,</mml:mo>
<mml:mo>Φ</mml:mo>
<mml:mrow>
<mml:mo>|</mml:mo>
<mml:mo>Ω</mml:mo></mml:mrow></mml:mrow>
<mml:mo>)</mml:mo></mml:mrow>
<mml:mo>=</mml:mo>
<mml:mi>P</mml:mi>
<mml:mrow>
<mml:mo>(</mml:mo>
<mml:mrow>
<mml:msubsup>
<mml:mi>X</mml:mi>
<mml:mi>i</mml:mi>
<mml:mo>′</mml:mo></mml:msubsup>
<mml:mrow>
<mml:mo>|</mml:mo>
<mml:mo>Ω</mml:mo></mml:mrow></mml:mrow>
<mml:mo>)</mml:mo></mml:mrow>
<mml:mi>p</mml:mi>
<mml:mrow>
<mml:mo>(</mml:mo>
<mml:mrow>
<mml:mo>Φ</mml:mo>
<mml:mrow>
<mml:mo>|</mml:mo>
<mml:mo>Ω</mml:mo></mml:mrow></mml:mrow>
<mml:mo>)</mml:mo></mml:mrow></mml:mrow></mml:semantics></mml:math></inline-formula>. Equivalently, Φ contains no information about the 
<inline-formula>
<mml:math id="mm18" display="inline">
<mml:semantics id="sm18">
<mml:mrow>
<mml:msubsup>
<mml:mi>X</mml:mi>
<mml:mi>i</mml:mi>
<mml:mo>′</mml:mo></mml:msubsup></mml:mrow></mml:semantics></mml:math></inline-formula> except via their shared dependence on the hidden distribution Ω. Note that for any model Φ generated by model selection, its <italic>training data</italic> do not meet this requirement, since Φ is <italic>not</italic> conditionally independent of the training data given Ω.</p></list-item></list></p>
<p>We desire an estimator for <italic>L̅</italic> − <italic>E</italic>(<italic>L</italic>). Since the 
<inline-formula>
<mml:math id="mm19" display="inline">
<mml:semantics id="sm19">
<mml:mrow>
<mml:msubsup>
<mml:mi>X</mml:mi>
<mml:mi>i</mml:mi>
<mml:mo>′</mml:mo></mml:msubsup></mml:mrow></mml:semantics></mml:math></inline-formula> are identically distribured as <italic>X</italic> and conditionally independent of Φ given Ω, the 
<inline-formula>
<mml:math id="mm20" display="inline">
<mml:semantics id="sm20">
<mml:mrow>
<mml:mo>log</mml:mo>
<mml:mo>Φ</mml:mo>
<mml:mrow>
<mml:mo>(</mml:mo>
<mml:mrow>
<mml:msubsup>
<mml:mi>X</mml:mi>
<mml:mi>i</mml:mi>
<mml:mo>′</mml:mo></mml:msubsup></mml:mrow>
<mml:mo>)</mml:mo></mml:mrow></mml:mrow></mml:semantics></mml:math></inline-formula> are identically distributed as log Φ(<italic>X</italic>) <italic>i.e.</italic>, <italic>L.</italic> So by the Law of Large Numbers we can define an <italic>overfitting bias information</italic> metric
<disp-formula id="FD11">
<mml:math id="mm21" display="block">
<mml:semantics id="sm21">
<mml:mrow>
<mml:msub>
<mml:mover accent="true">
<mml:mi>I</mml:mi>
<mml:mo>¯</mml:mo></mml:mover>
<mml:mi>b</mml:mi></mml:msub>
<mml:mo>=</mml:mo>
<mml:mover accent="true">
<mml:mi>L</mml:mi>
<mml:mo>¯</mml:mo></mml:mover>
<mml:mo>-</mml:mo>
<mml:msub>
<mml:mover accent="true">
<mml:mi>L</mml:mi>
<mml:mo>¯</mml:mo></mml:mover>
<mml:mi>e</mml:mi></mml:msub>
<mml:mover>
<mml:mo stretchy="true">→</mml:mo>
<mml:mrow>
<mml:mtext mathvariant="italic">LLN</mml:mtext></mml:mrow></mml:mover>
<mml:mspace width="0.2em"/>
<mml:mover accent="true">
<mml:mi>L</mml:mi>
<mml:mo>¯</mml:mo></mml:mover>
<mml:mo>-</mml:mo>
<mml:mi>E</mml:mi>
<mml:mrow>
<mml:mo>(</mml:mo>
<mml:mi>L</mml:mi>
<mml:mo>)</mml:mo></mml:mrow></mml:mrow></mml:semantics></mml:math></disp-formula> as <italic>m</italic> → ∞ , where 
<inline-formula>
<mml:math id="mm22" display="inline">
<mml:semantics id="sm22">
<mml:mover accent="true">
<mml:mrow>
<mml:msub>
<mml:mi>L</mml:mi>
<mml:mi>e</mml:mi></mml:msub></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover></mml:semantics></mml:math></inline-formula> is the sample average of the 
<inline-formula>
<mml:math id="mm23" display="inline">
<mml:semantics id="sm23">
<mml:mrow>
<mml:mo>log</mml:mo>
<mml:mo>Φ</mml:mo>
<mml:mrow>
<mml:mo>(</mml:mo>
<mml:mrow>
<mml:msubsup>
<mml:mi>X</mml:mi>
<mml:mi>i</mml:mi>
<mml:mo>′</mml:mo></mml:msubsup></mml:mrow>
<mml:mo>)</mml:mo></mml:mrow></mml:mrow></mml:semantics></mml:math></inline-formula> test data log-likelihoods. We will refer to 
<inline-formula>
<mml:math id="mm24" display="inline">
<mml:semantics id="sm24">
<mml:mover accent="true">
<mml:mrow>
<mml:msub>
<mml:mi>L</mml:mi>
<mml:mi>e</mml:mi></mml:msub></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover></mml:semantics></mml:math></inline-formula> as the <italic>empirical log-likelihood</italic>. Note that whereas Vapnik-Chervonenkis theory provides an <italic>upper bound</italic> on the bias errors for an entire class of models (<italic>i.e.</italic>, all models with the same VC dimension), <italic>I<sub>b</sub></italic> measures the <italic>actual error</italic> due to a specific model's selection bias.</p>
<p><italic>I<sub>b</sub></italic> has the corresponding lower bound estimator (under the simplifying assumption that the sample sizes for <italic>L</italic> and <italic>L<sub>e</sub></italic> are the same (<italic>m</italic> = <italic>n</italic>)):
<disp-formula id="FD12">
<mml:math id="mm25" display="block">
<mml:semantics id="sm25">
<mml:mrow>
<mml:msub>
<mml:mi>I</mml:mi>
<mml:mrow>
<mml:mi>b</mml:mi>
<mml:mo>,</mml:mo>
<mml:mo>∈</mml:mo></mml:mrow></mml:msub>
<mml:mo>=</mml:mo>
<mml:msub>
<mml:mover accent="true">
<mml:mi>I</mml:mi>
<mml:mo>¯</mml:mo></mml:mover>
<mml:mi>b</mml:mi></mml:msub>
<mml:mo>-</mml:mo>
<mml:msqrt>
<mml:mrow>
<mml:mfrac>
<mml:mrow>
<mml:mover accent="true">
<mml:mrow>
<mml:mtext mathvariant="italic">var</mml:mtext>
<mml:mrow>
<mml:mo>(</mml:mo>
<mml:mrow>
<mml:mi>L</mml:mi>
<mml:mo>-</mml:mo>
<mml:msub>
<mml:mi>L</mml:mi>
<mml:mi>e</mml:mi></mml:msub></mml:mrow>
<mml:mo>)</mml:mo></mml:mrow></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover></mml:mrow>
<mml:mrow>
<mml:mi>m</mml:mi>
<mml:mspace width="0.3em"/>
<mml:mo>∈</mml:mo></mml:mrow></mml:mfrac></mml:mrow></mml:msqrt></mml:mrow></mml:semantics></mml:math></disp-formula> If the model selection procedure has introduced no bias, <italic>I<sub>b</sub></italic> ≈ 0.</p></sec>
<sec>
<label>2.4.</label>
<title>Example: The BIC Optimal Model for a Small Sample from a Normal Distribution</title>
<p>The BIC adds a correction term <italic>k</italic> log <italic>n</italic> to the total log-likelihood, which penalizes against models with larger numbers of parameters. Note that this correction is designed specifically to protect against overfitting. This correction is referred to as the Bayesian Information Criterion because it is based on choosing the model with maximum Bayesian posterior probability, and by this criterion is provably optimal for the exponential family of models [<xref ref-type="bibr" rid="b4-information-02-00017">4</xref>].</p>
<p>However, several caveats about such corrections should be understood:
<list list-type="bullet">
<list-item>
<p>a given correction addresses a particular kind of overfitting, for example, for the AIC and BIC, excessive number of model parameters <italic>k</italic>.</p></list-item>
<list-item>
<p>a given correction is based on specific assumptions about the model, and may not behave as expected under other conditions;</p></list-item>
<list-item>
<p>Such corrections do <italic>not</italic> guarantee that the model they select will be optimal, or even unbiased.</p></list-item></list></p>
<p>As an example, <xref ref-type="fig" rid="f1-information-02-00017">Figure 1</xref>: Overfitting analysis of BIC models on a small sample from a normal distribution shows the distribution of <italic>L̅ vs.</italic> 
<inline-formula>
<mml:math id="mm26" display="inline">
<mml:semantics id="sm26">
<mml:mover accent="true">
<mml:mrow>
<mml:msub>
<mml:mi>L</mml:mi>
<mml:mi>e</mml:mi></mml:msub></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover></mml:semantics></mml:math></inline-formula> for BIC-optimal models generated using a sample of three observations drawn from a unit normal distribution. (Note that in this case BIC-optimality is just equivalent to AIC-optimality and Maximum Likelihood, since the set of all possible normal models share the same value of <italic>k</italic> = 2). This simple example illustrates several points:
<list list-type="bullet">
<list-item>
<p>A large fraction of the models strongly overfit the observations as indicated by a large deviation from the <italic>L̅</italic> = 
<inline-formula>
<mml:math id="mm27" display="inline">
<mml:semantics id="sm27">
<mml:mover accent="true">
<mml:mrow>
<mml:msub>
<mml:mi>L</mml:mi>
<mml:mi>e</mml:mi></mml:msub></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover></mml:semantics></mml:math></inline-formula> diagonal.</p></list-item>
<list-item>
<p><italic>L̅</italic> and 
<inline-formula>
<mml:math id="mm28" display="inline">
<mml:semantics id="sm28">
<mml:mover accent="true">
<mml:mrow>
<mml:msub>
<mml:mi>L</mml:mi>
<mml:mi>e</mml:mi></mml:msub></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover></mml:semantics></mml:math></inline-formula> are strongly and non-linearly anti-correlated. That is, the better the apparent fit to the training data, the worse the actual fit to the test data.</p></list-item></list></p></sec>
<sec>
<label>2.5.</label>
<title>The Empirical Information Metric</title>
<p>Based on these considerations, we use the unbiased estimator <italic>L<sub>e</sub></italic> to define the <italic>empirical information</italic>, a signed measure of prediction power relative to the uninformative distribution <italic>p</italic>(<italic>X</italic>):
<disp-formula id="FD13">
<mml:math id="mm29" display="block">
<mml:semantics id="sm29">
<mml:mrow>
<mml:mover accent="true">
<mml:mrow>
<mml:msub>
<mml:mi>I</mml:mi>
<mml:mi>e</mml:mi></mml:msub>
<mml:mrow>
<mml:mo>(</mml:mo>
<mml:mo>Ψ</mml:mo>
<mml:mo>)</mml:mo></mml:mrow></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover>
<mml:mo>=</mml:mo>
<mml:mover accent="true">
<mml:mrow>
<mml:msub>
<mml:mi>L</mml:mi>
<mml:mi>e</mml:mi></mml:msub>
<mml:mrow>
<mml:mo>(</mml:mo>
<mml:mo>Ψ</mml:mo>
<mml:mo>)</mml:mo></mml:mrow></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover>
<mml:mo>-</mml:mo>
<mml:mover accent="true">
<mml:mrow>
<mml:msub>
<mml:mi>L</mml:mi>
<mml:mi>e</mml:mi></mml:msub>
<mml:mrow>
<mml:mo>(</mml:mo>
<mml:mi>p</mml:mi>
<mml:mo>)</mml:mo></mml:mrow></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover>
<mml:mo>=</mml:mo>
<mml:mfrac>
<mml:mn>1</mml:mn>
<mml:mi>n</mml:mi></mml:mfrac>
<mml:munderover>
<mml:mo>∑</mml:mo>
<mml:mrow>
<mml:mi>i</mml:mi>
<mml:mo>=</mml:mo>
<mml:mn>1</mml:mn></mml:mrow>
<mml:mi>n</mml:mi></mml:munderover>
<mml:mrow>
<mml:mo>log</mml:mo>
<mml:mfrac>
<mml:mrow>
<mml:mo>Ψ</mml:mo>
<mml:mrow>
<mml:mo>(</mml:mo>
<mml:mrow>
<mml:msub>
<mml:mi>X</mml:mi>
<mml:mi>i</mml:mi></mml:msub></mml:mrow>
<mml:mo>)</mml:mo></mml:mrow></mml:mrow>
<mml:mrow>
<mml:mi>p</mml:mi>
<mml:mrow>
<mml:mo>(</mml:mo>
<mml:mrow>
<mml:msub>
<mml:mi>X</mml:mi>
<mml:mi>i</mml:mi></mml:msub></mml:mrow>
<mml:mo>)</mml:mo></mml:mrow></mml:mrow></mml:mfrac></mml:mrow></mml:mrow></mml:semantics></mml:math></disp-formula> The empirical information estimates the improvement in the accuracy of a model Ψ(<italic>X</italic>) in predicting the test observations. For observable variables <italic>X</italic> whose uninformative distribution is simply a constant density, 
<inline-formula>
<mml:math id="mm30" display="inline">
<mml:semantics id="sm30">
<mml:mrow>
<mml:mover accent="true">
<mml:mrow>
<mml:msub>
<mml:mi>I</mml:mi>
<mml:mi>e</mml:mi></mml:msub>
<mml:mrow>
<mml:mo>(</mml:mo>
<mml:mo>Ψ</mml:mo>
<mml:mo>)</mml:mo></mml:mrow></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover></mml:mrow></mml:semantics></mml:math></inline-formula> differs from 
<inline-formula>
<mml:math id="mm31" display="inline">
<mml:semantics id="sm31">
<mml:mrow>
<mml:mover accent="true">
<mml:mrow>
<mml:msub>
<mml:mi>L</mml:mi>
<mml:mi>e</mml:mi></mml:msub>
<mml:mrow>
<mml:mo>(</mml:mo>
<mml:mo>Ψ</mml:mo>
<mml:mo>)</mml:mo></mml:mrow></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover></mml:mrow></mml:semantics></mml:math></inline-formula> by simply a constant (log <italic>R</italic>, where <italic>R</italic> is the size of the range of X). In such cases the lower bound estimator for <italic>I<sub>e</sub></italic> differs from that of <italic>L<sub>e</sub></italic> only by this constant:
<disp-formula id="FD14">
<mml:math id="mm32" display="block">
<mml:semantics id="sm32">
<mml:mrow>
<mml:msub>
<mml:mi>I</mml:mi>
<mml:mrow>
<mml:mi>e</mml:mi>
<mml:mo>,</mml:mo>
<mml:mo>∈</mml:mo></mml:mrow></mml:msub>
<mml:mo>=</mml:mo>
<mml:msub>
<mml:mover accent="true">
<mml:mi>I</mml:mi>
<mml:mo>¯</mml:mo></mml:mover>
<mml:mi>e</mml:mi></mml:msub>
<mml:mo>-</mml:mo>
<mml:msqrt>
<mml:mrow>
<mml:mfrac>
<mml:mrow>
<mml:mover accent="true">
<mml:mrow>
<mml:mtext mathvariant="italic">var</mml:mtext>
<mml:mrow>
<mml:mo>(</mml:mo>
<mml:mrow>
<mml:msub>
<mml:mi>L</mml:mi>
<mml:mi>e</mml:mi></mml:msub></mml:mrow>
<mml:mo>)</mml:mo></mml:mrow></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover></mml:mrow>
<mml:mrow>
<mml:mi>n</mml:mi>
<mml:mspace width="0.3em"/>
<mml:mo>∈</mml:mo></mml:mrow></mml:mfrac></mml:mrow></mml:msqrt>
<mml:mo>=</mml:mo>
<mml:msub>
<mml:mover accent="true">
<mml:mi>L</mml:mi>
<mml:mo>¯</mml:mo></mml:mover>
<mml:mi>e</mml:mi></mml:msub>
<mml:mo>-</mml:mo>
<mml:msqrt>
<mml:mrow>
<mml:mfrac>
<mml:mrow>
<mml:mover accent="true">
<mml:mrow>
<mml:mtext mathvariant="italic">var</mml:mtext>
<mml:mrow>
<mml:mo>(</mml:mo>
<mml:mrow>
<mml:msub>
<mml:mi>L</mml:mi>
<mml:mi>e</mml:mi></mml:msub></mml:mrow>
<mml:mo>)</mml:mo></mml:mrow></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover></mml:mrow>
<mml:mrow>
<mml:mi>n</mml:mi>
<mml:mspace width="0.3em"/>
<mml:mo>∈</mml:mo></mml:mrow></mml:mfrac></mml:mrow></mml:msqrt>
<mml:mo>+</mml:mo>
<mml:mo>log</mml:mo>
<mml:mspace width="0.2em"/>
<mml:mi>R</mml:mi></mml:mrow></mml:semantics></mml:math></disp-formula>It is important to note a few aspects of the empirical information that arise from the above considerations:
<list list-type="bullet">
<list-item>
<p>Note that <italic>I<sub>e</sub></italic> can be negative, if the model's prediction power is even worse than that of theuninformative distribution.</p></list-item>
<list-item>
<p>Whereas most metrics for model selection such as the AIC and BIC contain correction terms dependent on the model complexity <italic>k</italic> (or VC dimension <italic>h</italic>), <italic>I<sub>e</sub></italic> needs no such corrections because it is unbiased <italic>by definition</italic>. Excessive model complexity will not increase <italic>I<sub>e</sub></italic> but instead will reduce it. <italic>I<sub>e</sub></italic> contains no bias and therefore needs no correction. In this sense, it follows a similar approach as cross-validation [<xref ref-type="bibr" rid="b9-information-02-00017">9</xref>].</p></list-item>
<list-item>
<p>Note that we do not need to incorporate the sample size directly into the metric definition (as in the case of the BIC [<xref ref-type="bibr" rid="b4-information-02-00017">4</xref>], Vapnik-Chervonenkis upper-bound error <italic>R<sub>vc</sub></italic> [<xref ref-type="bibr" rid="b6-information-02-00017">6</xref>], and “small-sample corrected” versions of the AIC such as the AICc [<xref ref-type="bibr" rid="b10-information-02-00017">10</xref>]). Instead, the effect of sample size emerges naturally from the Law of Large Numbers lower bound estimator for our empirical information metrics (e.g., <italic>L<sub>e,ε</sub></italic>, <italic>I<sub>b,ε</sub></italic>, <italic>I<sub>e,ε</sub></italic>). Fundamentally, the importance of sample size is simply the uncertainty due to sampling error, and the Law of Large Numbers probabilistic bound captures this in a general way.</p></list-item></list></p></sec>
<sec>
<label>2.6.</label>
<title>Empirical Information as A Sampleable Form of Mutual Information</title>
<p>Consider the following “mutual information sampling problem”:
<list list-type="bullet">
<list-item>
<p>draw a specific inference problem (hidden distribution Ω(<italic>X</italic>)) from some class of real-world problems (e.g., for weight distributions of different animal species, this step would mean randomly choosing one particular animal species);</p></list-item>
<list-item>
<p>draw training data 
<inline-formula>
<mml:math id="mm33" display="inline">
<mml:semantics id="sm33">
<mml:mrow>
<mml:msup>
<mml:mover accent="true">
<mml:mi>X</mml:mi>
<mml:mo>⃗</mml:mo></mml:mover>
<mml:mrow>
<mml:mi>t</mml:mi></mml:mrow></mml:msup></mml:mrow></mml:semantics></mml:math></inline-formula> and test data X from Ω(<italic>X</italic>);</p></list-item>
<list-item>
<p>find a way to estimate the mutual information <italic>I</italic>(
<inline-formula>
<mml:math id="mm34" display="inline">
<mml:semantics id="sm34">
<mml:mrow>
<mml:msup>
<mml:mover accent="true">
<mml:mi>X</mml:mi>
<mml:mo>⃗</mml:mo></mml:mover>
<mml:mrow>
<mml:mi>t</mml:mi></mml:mrow></mml:msup></mml:mrow></mml:semantics></mml:math></inline-formula>; <italic>X</italic>) on the basis of this single case (single instance of Ω).</p></list-item></list></p>
<p>The standard definition of mutual information 
<inline-formula>
<mml:math id="mm35" display="inline">
<mml:semantics id="sm35">
<mml:mrow>
<mml:mi>I</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:msup>
<mml:mover accent="true">
<mml:mi>X</mml:mi>
<mml:mo>→</mml:mo></mml:mover>
<mml:mi>t</mml:mi></mml:msup>
<mml:mo>;</mml:mo>
<mml:mi>X</mml:mi></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow>
<mml:mo>=</mml:mo>
<mml:mi>E</mml:mi>
<mml:mrow>
<mml:mo>(</mml:mo>
<mml:mrow>
<mml:mo>log</mml:mo>
<mml:mfrac>
<mml:mrow>
<mml:mi>p</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:msup>
<mml:mover accent="true">
<mml:mi>X</mml:mi>
<mml:mo>→</mml:mo></mml:mover>
<mml:mi>t</mml:mi></mml:msup>
<mml:mo>,</mml:mo>
<mml:mi>X</mml:mi></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow>
<mml:mrow>
<mml:mi>P</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:msup>
<mml:mover accent="true">
<mml:mi>X</mml:mi>
<mml:mo>→</mml:mo></mml:mover>
<mml:mi>t</mml:mi></mml:msup></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow>
<mml:mi>P</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mi>X</mml:mi>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:mfrac></mml:mrow>
<mml:mo>)</mml:mo></mml:mrow></mml:mrow></mml:semantics></mml:math></inline-formula> does not enable such a calculation. Even if we draw many pairs 
<inline-formula>
<mml:math id="mm36" display="inline">
<mml:semantics id="sm36">
<mml:mrow>
<mml:msup>
<mml:mover accent="true">
<mml:mi>X</mml:mi>
<mml:mo>⃗</mml:mo></mml:mover>
<mml:mrow>
<mml:mi>t</mml:mi></mml:mrow></mml:msup></mml:mrow></mml:semantics></mml:math></inline-formula>, X to estimate this value, we will just get a value of zero, because 
<inline-formula>
<mml:math id="mm37" display="inline">
<mml:semantics id="sm37">
<mml:mrow>
<mml:msup>
<mml:mover accent="true">
<mml:mi>X</mml:mi>
<mml:mo>⃗</mml:mo></mml:mover>
<mml:mrow>
<mml:mi>t</mml:mi></mml:mrow></mml:msup></mml:mrow></mml:semantics></mml:math></inline-formula>, X are conditionally independent given Ω. The mutual information <italic>I</italic>(
<inline-formula>
<mml:math id="mm38" display="inline">
<mml:semantics id="sm38">
<mml:mrow>
<mml:msup>
<mml:mover accent="true">
<mml:mi>X</mml:mi>
<mml:mo>⃗</mml:mo></mml:mover>
<mml:mrow>
<mml:mi>t</mml:mi></mml:mrow></mml:msup></mml:mrow></mml:semantics></mml:math></inline-formula>; X) is defined only over the <italic>complete</italic> joint distribution <italic>p</italic>(Ω, 
<inline-formula>
<mml:math id="mm39" display="inline">
<mml:semantics id="sm39">
<mml:mrow>
<mml:msup>
<mml:mover accent="true">
<mml:mi>X</mml:mi>
<mml:mo>⃗</mml:mo></mml:mover>
<mml:mrow>
<mml:mi>t</mml:mi></mml:mrow></mml:msup></mml:mrow></mml:semantics></mml:math></inline-formula>, X); it does not appear meaningful to talk about calculating it from a single instance of Ω.</p>
<p>By contrast with mutual information, we <italic>do</italic> calculate empirical information for a specific value of Ω, <italic>i.e.</italic>, we use it to measure the prediction power of our model Ψ on observations emitted by that specific value of Ω. It is therefore interesting to investigate the relationship of the empirical information <italic>vs.</italic> the mutual information. We follow the usual information theory approach of taking its expectation value over the complete joint distribution:
<disp-formula id="FD15">
<mml:math id="mm40" display="block">
<mml:semantics id="sm40">
<mml:mrow>
<mml:mi>E</mml:mi>
<mml:mrow>
<mml:mo>(</mml:mo>
<mml:mrow>
<mml:msub>
<mml:mi>I</mml:mi>
<mml:mi>e</mml:mi></mml:msub>
<mml:mrow>
<mml:mo>(</mml:mo>
<mml:mo>Ψ</mml:mo>
<mml:mo>)</mml:mo></mml:mrow></mml:mrow>
<mml:mo>)</mml:mo></mml:mrow>
<mml:mo>=</mml:mo>
<mml:mi>E</mml:mi>
<mml:mrow>
<mml:mo>(</mml:mo>
<mml:mrow>
<mml:msub>
<mml:mi>L</mml:mi>
<mml:mi>e</mml:mi></mml:msub>
<mml:mrow>
<mml:mo>(</mml:mo>
<mml:mo>Ψ</mml:mo>
<mml:mo>)</mml:mo></mml:mrow></mml:mrow>
<mml:mo>)</mml:mo></mml:mrow>
<mml:mo>-</mml:mo>
<mml:mi>E</mml:mi>
<mml:mrow>
<mml:mo>(</mml:mo>
<mml:mrow>
<mml:msub>
<mml:mi>L</mml:mi>
<mml:mi>e</mml:mi></mml:msub>
<mml:mrow>
<mml:mo>(</mml:mo>
<mml:mi>P</mml:mi>
<mml:mo>)</mml:mo></mml:mrow></mml:mrow>
<mml:mo>)</mml:mo></mml:mrow>
<mml:mo>=</mml:mo>
<mml:mi>E</mml:mi>
<mml:mrow>
<mml:mo>(</mml:mo>
<mml:mrow>
<mml:msub>
<mml:mi>L</mml:mi>
<mml:mi>e</mml:mi></mml:msub>
<mml:mrow>
<mml:mo>(</mml:mo>
<mml:mo>Ψ</mml:mo>
<mml:mo>)</mml:mo></mml:mrow></mml:mrow>
<mml:mo>)</mml:mo></mml:mrow>
<mml:mo>-</mml:mo>
<mml:munder>
<mml:mo>∑</mml:mo>
<mml:mi>X</mml:mi></mml:munder>
<mml:mrow>
<mml:mi>p</mml:mi>
<mml:mrow>
<mml:mo>(</mml:mo>
<mml:mi>X</mml:mi>
<mml:mo>)</mml:mo></mml:mrow></mml:mrow>
<mml:mo>log</mml:mo>
<mml:mi>p</mml:mi>
<mml:mrow>
<mml:mo>(</mml:mo>
<mml:mi>X</mml:mi>
<mml:mo>)</mml:mo></mml:mrow>
<mml:mo>=</mml:mo>
<mml:mi>E</mml:mi>
<mml:mrow>
<mml:mo>(</mml:mo>
<mml:mrow>
<mml:msub>
<mml:mi>L</mml:mi>
<mml:mi>e</mml:mi></mml:msub>
<mml:mrow>
<mml:mo>(</mml:mo>
<mml:mo>Ψ</mml:mo>
<mml:mo>)</mml:mo></mml:mrow></mml:mrow>
<mml:mo>)</mml:mo></mml:mrow>
<mml:mo>+</mml:mo>
<mml:mi>H</mml:mi>
<mml:mrow>
<mml:mo>(</mml:mo>
<mml:mi>X</mml:mi>
<mml:mo>)</mml:mo></mml:mrow></mml:mrow></mml:semantics></mml:math></disp-formula> assuming that the uninformative distribution <italic>p</italic>(<italic>X</italic>) used in the denominator of <italic>I<sub>e</sub></italic> matches the true marginal distribution of <italic>X</italic>. Focusing on the remaining expectation log-likelihood term:
<disp-formula id="FD16">
<mml:math id="mm41" display="block">
<mml:semantics id="sm41">
<mml:mrow>
<mml:mi>E</mml:mi>
<mml:mrow>
<mml:mo>(</mml:mo>
<mml:mrow>
<mml:msub>
<mml:mi>L</mml:mi>
<mml:mi>e</mml:mi></mml:msub>
<mml:mrow>
<mml:mo>(</mml:mo>
<mml:mo>Ψ</mml:mo>
<mml:mo>)</mml:mo></mml:mrow></mml:mrow>
<mml:mo>)</mml:mo></mml:mrow>
<mml:mo>=</mml:mo>
<mml:munder>
<mml:mo>∑</mml:mo>
<mml:mo>Ω</mml:mo></mml:munder>
<mml:mrow>
<mml:munder>
<mml:mo>∑</mml:mo>
<mml:mrow>
<mml:msup>
<mml:mover accent="true">
<mml:mi>X</mml:mi>
<mml:mo>→</mml:mo></mml:mover>
<mml:mi>t</mml:mi></mml:msup></mml:mrow></mml:munder>
<mml:mrow>
<mml:munder>
<mml:mo>∑</mml:mo>
<mml:mi>X</mml:mi></mml:munder>
<mml:mi>p</mml:mi></mml:mrow></mml:mrow>
<mml:mrow>
<mml:mo>(</mml:mo>
<mml:mrow>
<mml:mi>X</mml:mi>
<mml:mo>,</mml:mo>
<mml:msup>
<mml:mover accent="true">
<mml:mi>X</mml:mi>
<mml:mo>→</mml:mo></mml:mover>
<mml:mi>t</mml:mi></mml:msup>
<mml:mo>,</mml:mo>
<mml:mo>Ω</mml:mo></mml:mrow>
<mml:mo>)</mml:mo></mml:mrow>
<mml:mo>log</mml:mo>
<mml:mo>Ψ</mml:mo>
<mml:mrow>
<mml:mo>(</mml:mo>
<mml:mrow>
<mml:mi>X</mml:mi>
<mml:mrow>
<mml:mo>|</mml:mo>
<mml:mrow>
<mml:msup>
<mml:mover accent="true">
<mml:mi>X</mml:mi>
<mml:mo>→</mml:mo></mml:mover>
<mml:mi>t</mml:mi></mml:msup></mml:mrow></mml:mrow></mml:mrow>
<mml:mo>)</mml:mo></mml:mrow></mml:mrow></mml:semantics></mml:math></disp-formula> where we take the expectation value over all possible values of the observable <italic>X</italic>, all possible values of the hidden variable Ω, and all possible training data sets 
<inline-formula>
<mml:math id="mm42" display="inline">
<mml:semantics id="sm42">
<mml:mrow>
<mml:msup>
<mml:mover accent="true">
<mml:mi>X</mml:mi>
<mml:mo>⃗</mml:mo></mml:mover>
<mml:mrow>
<mml:mi>t</mml:mi></mml:mrow></mml:msup></mml:mrow></mml:semantics></mml:math></inline-formula> of size <italic>t.</italic> Note that we write the model as Ψ(X<bold>|</bold>
<inline-formula>
<mml:math id="mm43" display="inline">
<mml:semantics id="sm43">
<mml:mrow>
<mml:msup>
<mml:mover accent="true">
<mml:mi>X</mml:mi>
<mml:mo>⃗</mml:mo></mml:mover>
<mml:mrow>
<mml:mi>t</mml:mi></mml:mrow></mml:msup></mml:mrow></mml:semantics></mml:math></inline-formula>) to explicitly emphasize its dependence on a set of training data 
<inline-formula>
<mml:math id="mm44" display="inline">
<mml:semantics id="sm44">
<mml:mrow>
<mml:msup>
<mml:mover accent="true">
<mml:mi>X</mml:mi>
<mml:mo>⃗</mml:mo></mml:mover>
<mml:mrow>
<mml:mi>t</mml:mi></mml:mrow></mml:msup></mml:mrow></mml:semantics></mml:math></inline-formula>. Since Ω does not appear in the log term we can eliminate it:
<disp-formula id="FD17">
<mml:math id="mm45" display="block">
<mml:semantics id="sm45">
<mml:mtable>
<mml:mtr>
<mml:mtd>
<mml:mrow>
<mml:mo>=</mml:mo>
<mml:munder>
<mml:mo>∑</mml:mo>
<mml:mrow>
<mml:msup>
<mml:mover accent="true">
<mml:mi>X</mml:mi>
<mml:mo>→</mml:mo></mml:mover>
<mml:mi>t</mml:mi></mml:msup></mml:mrow></mml:munder>
<mml:mrow>
<mml:munder>
<mml:mo>∑</mml:mo>
<mml:mi>X</mml:mi></mml:munder>
<mml:mi>p</mml:mi></mml:mrow>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:mi>X</mml:mi>
<mml:mo>,</mml:mo>
<mml:msup>
<mml:mover accent="true">
<mml:mi>X</mml:mi>
<mml:mo>→</mml:mo></mml:mover>
<mml:mi>t</mml:mi></mml:msup></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow>
<mml:mo>log</mml:mo>
<mml:mo>Ψ</mml:mo>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:mi>X</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">|</mml:mo>
<mml:mrow>
<mml:msup>
<mml:mover accent="true">
<mml:mi>X</mml:mi>
<mml:mo>→</mml:mo></mml:mover>
<mml:mi>t</mml:mi></mml:msup></mml:mrow></mml:mrow></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:mtd></mml:mtr>
<mml:mtr>
<mml:mtd>
<mml:mo>=</mml:mo>
<mml:mo>-</mml:mo>
<mml:munder>
<mml:mo>∑</mml:mo>
<mml:mrow>
<mml:msup>
<mml:mover accent="true">
<mml:mi>X</mml:mi>
<mml:mo>→</mml:mo></mml:mover>
<mml:mi>t</mml:mi></mml:msup></mml:mrow></mml:munder>
<mml:mi>p</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:msup>
<mml:mover accent="true">
<mml:mi>X</mml:mi>
<mml:mo>→</mml:mo></mml:mover>
<mml:mi>t</mml:mi></mml:msup></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow>
<mml:munder>
<mml:mo>∑</mml:mo>
<mml:mi>X</mml:mi></mml:munder>
<mml:mi>p</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:mi>X</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">|</mml:mo>
<mml:mrow>
<mml:msup>
<mml:mover accent="true">
<mml:mi>X</mml:mi>
<mml:mo>→</mml:mo></mml:mover>
<mml:mi>t</mml:mi></mml:msup></mml:mrow></mml:mrow></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow>
<mml:mo>log</mml:mo>
<mml:mfrac>
<mml:mrow>
<mml:mi>p</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:mi>X</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">|</mml:mo>
<mml:mrow>
<mml:msup>
<mml:mover accent="true">
<mml:mi>X</mml:mi>
<mml:mo>→</mml:mo></mml:mover>
<mml:mi>t</mml:mi></mml:msup></mml:mrow></mml:mrow></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow>
<mml:mrow>
<mml:mo>Ψ</mml:mo>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:mi>X</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">|</mml:mo>
<mml:mrow>
<mml:msup>
<mml:mover accent="true">
<mml:mi>X</mml:mi>
<mml:mo>→</mml:mo></mml:mover>
<mml:mi>t</mml:mi></mml:msup></mml:mrow></mml:mrow></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:mfrac>
<mml:mo>+</mml:mo>
<mml:munder>
<mml:mo>∑</mml:mo>
<mml:mrow>
<mml:msup>
<mml:mover accent="true">
<mml:mi>X</mml:mi>
<mml:mo>→</mml:mo></mml:mover>
<mml:mi>t</mml:mi></mml:msup></mml:mrow></mml:munder>
<mml:mrow>
<mml:munder>
<mml:mo>∑</mml:mo>
<mml:mi>X</mml:mi></mml:munder>
<mml:mi>p</mml:mi></mml:mrow>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:mi>X</mml:mi>
<mml:mo>,</mml:mo>
<mml:msup>
<mml:mover accent="true">
<mml:mi>X</mml:mi>
<mml:mo>→</mml:mo></mml:mover>
<mml:mi>t</mml:mi></mml:msup></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow>
<mml:mo>log</mml:mo>
<mml:mi>p</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:mi>X</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">|</mml:mo>
<mml:mrow>
<mml:msup>
<mml:mover accent="true">
<mml:mi>X</mml:mi>
<mml:mo>→</mml:mo></mml:mover>
<mml:mi>t</mml:mi></mml:msup></mml:mrow></mml:mrow></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mtd></mml:mtr>
<mml:mtr>
<mml:mtd>
<mml:mo>=</mml:mo>
<mml:mo>-</mml:mo>
<mml:msub>
<mml:mi>E</mml:mi>
<mml:mrow>
<mml:msup>
<mml:mover accent="true">
<mml:mi>X</mml:mi>
<mml:mo>→</mml:mo></mml:mover>
<mml:mi>t</mml:mi></mml:msup></mml:mrow></mml:msub>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:mi>D</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:mi>p</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:mi>X</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">|</mml:mo>
<mml:mrow>
<mml:msup>
<mml:mover accent="true">
<mml:mi>X</mml:mi>
<mml:mo>→</mml:mo></mml:mover>
<mml:mi>t</mml:mi></mml:msup></mml:mrow></mml:mrow></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow>
<mml:mspace width="0.2em"/>
<mml:mo>∥</mml:mo>
<mml:mspace width="0.2em"/>
<mml:mo>Ψ</mml:mo>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:mi>X</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">|</mml:mo>
<mml:mrow>
<mml:msup>
<mml:mover accent="true">
<mml:mi>X</mml:mi>
<mml:mo>→</mml:mo></mml:mover>
<mml:mi>t</mml:mi></mml:msup></mml:mrow></mml:mrow></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow>
<mml:mo>-</mml:mo>
<mml:mi>H</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:mi>X</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">|</mml:mo>
<mml:mrow>
<mml:msup>
<mml:mover accent="true">
<mml:mi>X</mml:mi>
<mml:mo>→</mml:mo></mml:mover>
<mml:mi>t</mml:mi></mml:msup></mml:mrow></mml:mrow></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mtd></mml:mtr></mml:mtable></mml:semantics></mml:math></disp-formula> where the first term is a relative entropy of the model <italic>vs.</italic> the true conditional probability, and the second term is the conditional entropy of the observable <italic>vs.</italic> the training data. Therefore the expectation value of the empirical information is just:
<disp-formula id="FD18">
<mml:math id="mm46" display="block">
<mml:semantics id="sm46">
<mml:mtable>
<mml:mtr>
<mml:mtd>
<mml:mi>E</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:msub>
<mml:mi>I</mml:mi>
<mml:mi>e</mml:mi></mml:msub>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mo>Ψ</mml:mo>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow>
<mml:mo>=</mml:mo>
<mml:mi>H</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mi>X</mml:mi>
<mml:mo stretchy="false">)</mml:mo></mml:mrow>
<mml:mo>-</mml:mo>
<mml:mi>H</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:mi>X</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">|</mml:mo>
<mml:mrow>
<mml:msup>
<mml:mover accent="true">
<mml:mi>X</mml:mi>
<mml:mo>→</mml:mo></mml:mover>
<mml:mi>t</mml:mi></mml:msup></mml:mrow></mml:mrow></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow>
<mml:mo>-</mml:mo>
<mml:msub>
<mml:mi>E</mml:mi>
<mml:mrow>
<mml:msup>
<mml:mover accent="true">
<mml:mi>X</mml:mi>
<mml:mo>→</mml:mo></mml:mover>
<mml:mi>t</mml:mi></mml:msup></mml:mrow></mml:msub>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:mi>D</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:mi>p</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:mi>X</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">|</mml:mo>
<mml:mrow>
<mml:msup>
<mml:mover accent="true">
<mml:mi>X</mml:mi>
<mml:mo>→</mml:mo></mml:mover>
<mml:mi>t</mml:mi></mml:msup></mml:mrow></mml:mrow></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow>
<mml:mspace width="0.2em"/>
<mml:mo>∥</mml:mo>
<mml:mspace width="0.2em"/>
<mml:mo>Ψ</mml:mo>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:mi>X</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">|</mml:mo>
<mml:mrow>
<mml:msup>
<mml:mover accent="true">
<mml:mi>X</mml:mi>
<mml:mo>→</mml:mo></mml:mover>
<mml:mi>t</mml:mi></mml:msup></mml:mrow></mml:mrow></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mtd></mml:mtr>
<mml:mtr>
<mml:mtd>
<mml:mo>=</mml:mo>
<mml:mi>I</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:mi>X</mml:mi>
<mml:mrow>
<mml:mo>;</mml:mo>
<mml:mrow>
<mml:msup>
<mml:mover accent="true">
<mml:mi>X</mml:mi>
<mml:mo>→</mml:mo></mml:mover>
<mml:mi>t</mml:mi></mml:msup></mml:mrow></mml:mrow></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow>
<mml:mo>-</mml:mo>
<mml:msub>
<mml:mi>E</mml:mi>
<mml:mrow>
<mml:msup>
<mml:mover accent="true">
<mml:mi>X</mml:mi>
<mml:mo>→</mml:mo></mml:mover>
<mml:mi>t</mml:mi></mml:msup></mml:mrow></mml:msub>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:mi>D</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:mi>p</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:mi>X</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">|</mml:mo>
<mml:mrow>
<mml:msup>
<mml:mover accent="true">
<mml:mi>X</mml:mi>
<mml:mo>→</mml:mo></mml:mover>
<mml:mi>t</mml:mi></mml:msup></mml:mrow></mml:mrow></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow>
<mml:mspace width="0.2em"/>
<mml:mo>∥</mml:mo>
<mml:mspace width="0.2em"/>
<mml:mo>Ψ</mml:mo>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:mi>X</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">|</mml:mo>
<mml:mrow>
<mml:msup>
<mml:mover accent="true">
<mml:mi>X</mml:mi>
<mml:mo>→</mml:mo></mml:mover>
<mml:mi>t</mml:mi></mml:msup></mml:mrow></mml:mrow></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mtd></mml:mtr></mml:mtable></mml:semantics></mml:math></disp-formula> where <italic>I</italic>(<italic>X</italic>; 
<inline-formula>
<mml:math id="mm47" display="inline">
<mml:semantics id="sm47">
<mml:mrow>
<mml:msup>
<mml:mover accent="true">
<mml:mi>X</mml:mi>
<mml:mo>⃗</mml:mo></mml:mover>
<mml:mrow>
<mml:mi>t</mml:mi></mml:mrow></mml:msup></mml:mrow></mml:semantics></mml:math></inline-formula>) is the mutual information between the training data and the observable. Now consider the following sampling protocol:
<list list-type="bullet">
<list-item>
<p>for one specific inference problem (hidden value of Ω), we draw a training dataset 
<inline-formula>
<mml:math id="mm48" display="inline">
<mml:semantics id="sm48">
<mml:mrow>
<mml:msup>
<mml:mover accent="true">
<mml:mi>X</mml:mi>
<mml:mo>⃗</mml:mo></mml:mover>
<mml:mrow>
<mml:mi>t</mml:mi></mml:mrow></mml:msup></mml:mrow></mml:semantics></mml:math></inline-formula>, use it to train a model Ψ(<italic>X</italic><bold>|</bold>
<inline-formula>
<mml:math id="mm49" display="inline">
<mml:semantics id="sm49">
<mml:mrow>
<mml:msup>
<mml:mover accent="true">
<mml:mi>X</mml:mi>
<mml:mo>⃗</mml:mo></mml:mover>
<mml:mrow>
<mml:mi>t</mml:mi></mml:mrow></mml:msup></mml:mrow></mml:semantics></mml:math></inline-formula>), and measure the empirical information 
<inline-formula>
<mml:math id="mm50" display="inline">
<mml:semantics id="sm50">
<mml:mrow>
<mml:mover accent="true">
<mml:mrow>
<mml:msub>
<mml:mi>I</mml:mi>
<mml:mi>e</mml:mi></mml:msub>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mo>Ψ</mml:mo>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover></mml:mrow></mml:semantics></mml:math></inline-formula> on a set of test data 
<inline-formula>
<mml:math id="mm51" display="inline">
<mml:semantics id="sm51">
<mml:mrow>
<mml:msup>
<mml:mover accent="true">
<mml:mi>X</mml:mi>
<mml:mo>⃗</mml:mo></mml:mover>
<mml:mrow>
<mml:mi>n</mml:mi></mml:mrow></mml:msup></mml:mrow></mml:semantics></mml:math></inline-formula> drawn from the same distribution.</p></list-item>
<list-item>
<p>We repeat this procedure for multiple inference problems Ω<sub>(1)</sub>, Ω<sub>(2)</sub>, …, Ω<sub>(m)</sub>, and take the average of their empirical information values 
<inline-formula>
<mml:math id="mm52" display="inline">
<mml:semantics id="sm52">
<mml:mrow>
<mml:mfrac>
<mml:mn>1</mml:mn>
<mml:mi>m</mml:mi></mml:mfrac>
<mml:mo>∑</mml:mo>
<mml:mrow>
<mml:msub>
<mml:mover accent="true">
<mml:mi>I</mml:mi>
<mml:mo>¯</mml:mo></mml:mover>
<mml:mi>e</mml:mi></mml:msub></mml:mrow>
<mml:mover>
<mml:mo stretchy="true">→</mml:mo>
<mml:mrow>
<mml:mtext mathvariant="italic">LLN</mml:mtext></mml:mrow></mml:mover>
<mml:mspace width="0.2em"/>
<mml:mi>E</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:msub>
<mml:mi>I</mml:mi>
<mml:mi>e</mml:mi></mml:msub>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mo>Ψ</mml:mo>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:semantics></mml:math></inline-formula>.</p></list-item></list></p>
<p>If the model Ψ(X|
<inline-formula>
<mml:math id="mm53" display="inline">
<mml:semantics id="sm53">
<mml:mrow>
<mml:msup>
<mml:mover accent="true">
<mml:mi>X</mml:mi>
<mml:mo>⃗</mml:mo></mml:mover>
<mml:mrow>
<mml:mi>t</mml:mi></mml:mrow></mml:msup></mml:mrow></mml:semantics></mml:math></inline-formula>) approximates the true conditional distribution <italic>p</italic>(<italic>X</italic>|
<inline-formula>
<mml:math id="mm54" display="inline">
<mml:semantics id="sm54">
<mml:mrow>
<mml:msup>
<mml:mover accent="true">
<mml:mi>X</mml:mi>
<mml:mo>⃗</mml:mo></mml:mover>
<mml:mrow>
<mml:mi>t</mml:mi></mml:mrow></mml:msup></mml:mrow></mml:semantics></mml:math></inline-formula>) more and more closely, the relative entropy term <italic>D</italic>(<italic>p</italic>(<italic>X</italic><bold>|</bold> 
<inline-formula>
<mml:math id="mm55" display="inline">
<mml:semantics id="sm55">
<mml:mrow>
<mml:msup>
<mml:mover accent="true">
<mml:mi>X</mml:mi>
<mml:mo>⃗</mml:mo></mml:mover>
<mml:mrow>
<mml:mi>t</mml:mi></mml:mrow></mml:msup></mml:mrow></mml:semantics></mml:math></inline-formula>)‖Ψ(<italic>X</italic><bold>|</bold> 
<inline-formula>
<mml:math id="mm56" display="inline">
<mml:semantics id="sm56">
<mml:mrow>
<mml:msup>
<mml:mover accent="true">
<mml:mi>X</mml:mi>
<mml:mo>⃗</mml:mo></mml:mover>
<mml:mrow>
<mml:mi>t</mml:mi></mml:mrow></mml:msup></mml:mrow></mml:semantics></mml:math></inline-formula>)) will vanish, and we expect the average of the empirical information values to converge simply to <italic>I</italic>(<italic>X</italic>; 
<inline-formula>
<mml:math id="mm57" display="inline">
<mml:semantics id="sm57">
<mml:mrow>
<mml:msup>
<mml:mover accent="true">
<mml:mi>X</mml:mi>
<mml:mo>⃗</mml:mo></mml:mover>
<mml:mrow>
<mml:mi>t</mml:mi></mml:mrow></mml:msup></mml:mrow></mml:semantics></mml:math></inline-formula>). Under these conditions, the empirical information becomes a “sampleable form” of the mutual information. Note that the mutual information itself does <italic>not</italic> have this property; as shown above, the mutual information cannot be computed “piecewise” for individual instances of Ω and then averaged. By contrast, if we compute the empirical information for each inference problem, and then take the average, it will converge to the mutual information.</p></sec></sec>
<sec>
<label>3.</label>
<title>The Problem of Convergence</title>
<p>If we wish to maximize prediction power, our ultimate goal must be convergence, namely that our model will converge to the true, hidden distribution Ω. So we must ask the obvious question, how do we know when we're done? Two basic strategies present themselves:
<list list-type="bullet">
<list-item>
<p><italic>self-consistency tests</italic>: We can use our model as a reference to test whether the observations exactlymatch its expectations, as must be true if Ψ → Ω.</p></list-item>
<list-item>
<p><italic>convergence distance metric</italic>: If we knew the value of the absolute maximum prediction power L(Ω) possible for our target observable <italic>X</italic>, we could define a distance metric <italic>δ</italic> = <italic>L</italic>(Ω) − <italic>L</italic>(Ψ), which measures how “far” our current model is from convergence, in terms of its relative prediction power.</p></list-item></list></p>
<p>We will define empirical information metrics for both these approaches.</p>
<sec>
<label>3.1.</label>
<title>The Inference “Halting Problem”</title>
<p>As an example of the need for a convergence metric, we consider the process of Bayesian inference in modeling scientific data. In scientific research, we cannot easily restrict the set of possible models <italic>a priori</italic> either to closed-form analytic solutions or to finite sets of models that we can fully compute in practical amounts of CPU time. That is, the set of all possible models of the universe is not strictly bounded, and generally can be reduced only by calculating likelihoods for different terms of this set <italic>vs.</italic> experimental observations.</p>
<p>What is the computational complexity for Bayesian inference to find the correct term Ω or any term within some distance <italic>δ</italic> of it? We can view this as a form of the Halting Problem, in the sense that it requires a metric that indicates when it has found a term that is less than <italic>δ</italic> distance from Ω, at which point the algorithm halts. Unfortunately, the standard form of Bayes' Law
<disp-formula id="FD19">
<mml:math id="mm58" display="block">
<mml:semantics id="sm58">
<mml:mrow>
<mml:mi>p</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:mo>Ψ</mml:mo>
<mml:mrow>
<mml:mo stretchy="false">|</mml:mo>
<mml:mrow>
<mml:mover accent="true">
<mml:mi>X</mml:mi>
<mml:mo stretchy="true">→</mml:mo></mml:mover></mml:mrow></mml:mrow></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow>
<mml:mo>=</mml:mo>
<mml:mfrac>
<mml:mrow>
<mml:mi>p</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:mover accent="true">
<mml:mi>X</mml:mi>
<mml:mo stretchy="true">→</mml:mo></mml:mover>
<mml:mrow>
<mml:mo stretchy="false">|</mml:mo>
<mml:mo>Ψ</mml:mo></mml:mrow></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow>
<mml:mi>p</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mo>Ψ</mml:mo>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow>
<mml:mrow>
<mml:msub>
<mml:mo>∑</mml:mo>
<mml:mo>Ψ</mml:mo></mml:msub>
<mml:mi>p</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:mover accent="true">
<mml:mi>X</mml:mi>
<mml:mo stretchy="true">→</mml:mo></mml:mover>
<mml:mrow>
<mml:mo stretchy="false">|</mml:mo>
<mml:mo>Ψ</mml:mo></mml:mrow></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow>
<mml:mi>p</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mo>Ψ</mml:mo>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:mfrac></mml:mrow></mml:semantics></mml:math></disp-formula> offers no evident shortcuts: Even if we had calculated all but one last term of the summation, we still would not know whether our best model so far is actually the best model, or even whether it is within distance <italic>δ</italic> of the best model. In the absence of a halting test, this implies that its computational complexity must simply be that of exhaustive enumeration. This is a serious problem, especially given that the set of all possible models may for scientific inference problems be infinite.</p>
<p>In real-world practice this “halting problem” often grows into an even worse problem of “model misspecification” [<xref ref-type="bibr" rid="b11-information-02-00017">11</xref>]. That is, Bayesian computational methods typically lack a mechanism for generating <italic>all</italic> possible models even in theory. Instead they are limited to assuming a specific mathematical form for the model. Unless by good fortune the true distribution exactly fits this mathematical form, the computation will simply exclude it. Therefore, a reliable convergence metric becomes essential as an external indicator for whether the computational model is “misspecified” in this way. It should be noted that this is <italic>not</italic> addressed by asking whether a given Bayesian modeling process has “converged” in the sense of a Markov Chain Monte Carlo sampling process converging to its stationary distribution [<xref ref-type="bibr" rid="b12-information-02-00017">12</xref>]. Any such process is still restricted by its assumptions of a specific mathematical form for the model; there is no guarantee that this will contain the correct answer.</p></sec>
<sec>
<label>3.2.</label>
<title>Potential Information</title>
<p>We define <italic>I<sub>∞</sub></italic> as the total information content obtainable from a set of observations by considering the infinite set of all possible models. By analogy to the classical physics division of kinetic <italic>vs.</italic> potential energy components, we divide this into one part representing the model terms we've actually calculated (<italic>I<sub>e</sub></italic>, the empirical information), and a second part for the remaining <italic>uncomputed terms,</italic> which we define as <italic>I<sub>p</sub></italic>, the <bold>potential information</bold>:
<disp-formula id="FD20">
<mml:math id="mm59" display="block">
<mml:semantics id="sm59">
<mml:mrow>
<mml:msub>
<mml:mi>I</mml:mi>
<mml:mo>∞</mml:mo></mml:msub>
<mml:mo>=</mml:mo>
<mml:msub>
<mml:mi>I</mml:mi>
<mml:mi>e</mml:mi></mml:msub>
<mml:mo>+</mml:mo>
<mml:msub>
<mml:mi>I</mml:mi>
<mml:mi>p</mml:mi></mml:msub></mml:mrow></mml:semantics></mml:math></disp-formula><italic>I<sub>p</sub></italic> therefore represents the maximum amount of information theoretically attainable by computing more terms of the infinite set. Assuming that the true, hidden likelihood is Ω(<italic>X</italic>) and that our current model (after considering all terms calculated so far) is Ψ(<italic>X</italic>), then
<disp-formula id="FD21">
<mml:math id="mm60" display="block">
<mml:semantics id="sm60">
<mml:mrow>
<mml:msub>
<mml:mi>I</mml:mi>
<mml:mi>p</mml:mi></mml:msub>
<mml:mo>=</mml:mo>
<mml:msub>
<mml:mi>I</mml:mi>
<mml:mo>∞</mml:mo></mml:msub>
<mml:mo>-</mml:mo>
<mml:msub>
<mml:mi>I</mml:mi>
<mml:mi>e</mml:mi></mml:msub>
<mml:mo>=</mml:mo>
<mml:munder>
<mml:mo>∑</mml:mo>
<mml:mrow>
<mml:mo>∀</mml:mo>
<mml:mi>x</mml:mi></mml:mrow></mml:munder>
<mml:mrow>
<mml:mo>Ω</mml:mo>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mi>x</mml:mi>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow>
<mml:mo>log</mml:mo>
<mml:mfrac>
<mml:mrow>
<mml:mo>Ω</mml:mo>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mi>x</mml:mi>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow>
<mml:mrow>
<mml:mi>p</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mi>X</mml:mi>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:mfrac>
<mml:mo>-</mml:mo>
<mml:munder>
<mml:mo>∑</mml:mo>
<mml:mrow>
<mml:mo>∀</mml:mo>
<mml:mi>x</mml:mi></mml:mrow></mml:munder>
<mml:mrow>
<mml:mo>Ω</mml:mo>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mi>x</mml:mi>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow>
<mml:mo>log</mml:mo>
<mml:mfrac>
<mml:mrow>
<mml:mo>Ψ</mml:mo>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mi>x</mml:mi>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow>
<mml:mrow>
<mml:mi>p</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mi>X</mml:mi>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:mfrac></mml:mrow></mml:semantics></mml:math></disp-formula> where <italic>p</italic>(<italic>X</italic>) is the uninformative reference distribution, which cancels, yielding
<disp-formula id="FD22">
<mml:math id="mm61" display="block">
<mml:semantics id="sm61">
<mml:mrow>
<mml:msub>
<mml:mi>I</mml:mi>
<mml:mi>p</mml:mi></mml:msub>
<mml:mo>=</mml:mo>
<mml:munder>
<mml:mo>∑</mml:mo>
<mml:mrow>
<mml:mo>∀</mml:mo>
<mml:mi>x</mml:mi></mml:mrow></mml:munder>
<mml:mrow>
<mml:mo>Ω</mml:mo>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mi>x</mml:mi>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow>
<mml:mo>log</mml:mo>
<mml:mo>Ω</mml:mo>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mi>x</mml:mi>
<mml:mo stretchy="false">)</mml:mo></mml:mrow>
<mml:mo>-</mml:mo>
<mml:munder>
<mml:mo>∑</mml:mo>
<mml:mrow>
<mml:mo>∀</mml:mo>
<mml:mi>x</mml:mi></mml:mrow></mml:munder>
<mml:mrow>
<mml:mo>Ω</mml:mo>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mi>x</mml:mi>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow>
<mml:mo>log</mml:mo>
<mml:mo>Ψ</mml:mo>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mi>x</mml:mi>
<mml:mo stretchy="false">)</mml:mo></mml:mrow>
<mml:mo>=</mml:mo>
<mml:mo>-</mml:mo>
<mml:mi>H</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:mo>Ω</mml:mo>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mi>X</mml:mi>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow>
<mml:mo>-</mml:mo>
<mml:mi>E</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mi>L</mml:mi>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:semantics></mml:math></disp-formula> We can therefore solve the Inference Halting Problem by deriving an empirical <italic>I<sub>p</sub></italic> estimator (with a Law of Large Numbers convergence guarantee) that can be calculated <italic>without computing any more terms of the infinite model set</italic>. This is surprisingly straightforward. The right-hand term can be estimated directly by 
<inline-formula>
<mml:math id="mm62" display="inline">
<mml:semantics id="sm62">
<mml:mrow>
<mml:mo>−</mml:mo>
<mml:mover accent="true">
<mml:mrow>
<mml:msub>
<mml:mi>L</mml:mi>
<mml:mi>e</mml:mi></mml:msub></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover></mml:mrow></mml:semantics></mml:math></inline-formula> (the empirical log-likelihood). The left-hand term <italic>−H</italic>(Ω(<italic>X</italic>)) is simply the negative entropy of the observable. We evidently need an empirical estimator of the entropy, and specifically of the density Ω(<italic>X</italic>).</p>
<p>This density estimation problem poses one conceptual problem that requires clarification. Since the ultimate purpose of the potential information calculation is to catch possible errors in modeling, no part of its calculation (such as the empirical entropy calculation) should itself be equivalent to a form of modeling. If we used such a form of modeling to compute the empirical entropy, that would introduce a strongly subjective element, <italic>i.e.</italic>, simply comparing one model (Ψ) versus another (the model used for estimating <italic>H<sub>e</sub></italic>). To obtain an <italic>objective I<sub>p</sub></italic> metric, the empirical entropy calculation should be <italic>model-free</italic>. It should be a purely empirical procedure with a Law of Large Numbers convergence guarantee for large sample size <italic>n</italic> → ∞.</p></sec>
<sec>
<label>3.3.</label>
<title>The Empirical Entropy</title>
<p>For the case where the observable <italic>X</italic> is restricted to a set of discrete values, we define an indicator label κ<italic><sub>x</sub></italic>(<italic>X</italic>) which equals 1 if <italic>X</italic> equals a desired value <italic>x</italic>, otherwise zero. Then by the Law of Large Numbers
<disp-formula id="FD23">
<mml:math id="mm63" display="block">
<mml:semantics id="sm63">
<mml:mrow>
<mml:mfrac>
<mml:mn>1</mml:mn>
<mml:mi>n</mml:mi></mml:mfrac>
<mml:munderover>
<mml:mo>∑</mml:mo>
<mml:mrow>
<mml:mi>i</mml:mi>
<mml:mo>=</mml:mo>
<mml:mn>1</mml:mn></mml:mrow>
<mml:mi>n</mml:mi></mml:munderover>
<mml:mrow>
<mml:msub>
<mml:mi>K</mml:mi>
<mml:mi>x</mml:mi></mml:msub></mml:mrow>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:msub>
<mml:mi>X</mml:mi>
<mml:mi>i</mml:mi></mml:msub></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow>
<mml:mover>
<mml:mo stretchy="true">→</mml:mo>
<mml:mrow>
<mml:mtext mathvariant="italic">LLN</mml:mtext></mml:mrow></mml:mover>
<mml:mspace width="0.2em"/>
<mml:mi>E</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:msub>
<mml:mi>K</mml:mi>
<mml:mi>x</mml:mi></mml:msub>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mi>X</mml:mi>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow>
<mml:mo>=</mml:mo>
<mml:mo>Ω</mml:mo>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:mi>X</mml:mi>
<mml:mo>=</mml:mo>
<mml:mi>x</mml:mi></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mn>1</mml:mn>
<mml:mo stretchy="false">)</mml:mo></mml:mrow>
<mml:mo>+</mml:mo>
<mml:mo>Ω</mml:mo>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:mi>X</mml:mi>
<mml:mo>≠</mml:mo>
<mml:mi>x</mml:mi></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mn>0</mml:mn>
<mml:mo stretchy="false">)</mml:mo></mml:mrow>
<mml:mo>=</mml:mo>
<mml:mo>Ω</mml:mo>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mi>x</mml:mi>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:semantics></mml:math></disp-formula> The empirical entropy estimator follows directly in this case: for <italic>n</italic> → ∞,
<disp-formula id="FD24">
<mml:math id="mm67" display="block">
<mml:semantics id="sm67">
<mml:mrow>
<mml:msub>
<mml:mover accent="true">
<mml:mi>H</mml:mi>
<mml:mo>¯</mml:mo></mml:mover>
<mml:mi>e</mml:mi></mml:msub>
<mml:mo>=</mml:mo>
<mml:mo>-</mml:mo>
<mml:mfrac>
<mml:mn>1</mml:mn>
<mml:mi>n</mml:mi></mml:mfrac>
<mml:munderover>
<mml:mo>∑</mml:mo>
<mml:mrow>
<mml:mi>i</mml:mi>
<mml:mo>=</mml:mo>
<mml:mn>1</mml:mn></mml:mrow>
<mml:mi>n</mml:mi></mml:munderover>
<mml:mrow>
<mml:mo>log</mml:mo>
<mml:mrow>
<mml:mo stretchy="true">(</mml:mo>
<mml:mrow>
<mml:mfrac>
<mml:mn>1</mml:mn>
<mml:mi>n</mml:mi></mml:mfrac>
<mml:munderover>
<mml:mo>∑</mml:mo>
<mml:mrow>
<mml:mi>j</mml:mi>
<mml:mo>=</mml:mo>
<mml:mn>1</mml:mn></mml:mrow>
<mml:mi>n</mml:mi></mml:munderover>
<mml:mrow>
<mml:mi>κ</mml:mi>
<mml:msub>
<mml:mi>x</mml:mi>
<mml:mi>i</mml:mi></mml:msub></mml:mrow>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:msub>
<mml:mi>X</mml:mi>
<mml:mi>j</mml:mi></mml:msub></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow>
<mml:mo stretchy="true">)</mml:mo></mml:mrow></mml:mrow>
<mml:mspace width="0.2em"/>
<mml:mover>
<mml:mo stretchy="true">→</mml:mo>
<mml:mrow>
<mml:mtext mathvariant="italic">LLN</mml:mtext></mml:mrow></mml:mover>
<mml:mspace width="0.2em"/>
<mml:mi>H</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:mo>Ω</mml:mo>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mi>X</mml:mi>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:semantics></mml:math></disp-formula> For the continuous case, we need an empirical probability density estimator <italic>P<sub>e</sub></italic>(<italic>X</italic>). To obtain this we define an indicator function κ<italic><sub>x</sub></italic>(<italic>X</italic>) which equals 1 if <italic>X</italic> ≤ <italic>x</italic>, otherwise zero. Then
<disp-formula id="FD25">
<mml:math id="mm68" display="block">
<mml:semantics id="sm68">
<mml:mrow>
<mml:mfrac>
<mml:mn>1</mml:mn>
<mml:mi>n</mml:mi></mml:mfrac>
<mml:munderover>
<mml:mo>∑</mml:mo>
<mml:mrow>
<mml:mi>i</mml:mi>
<mml:mo>=</mml:mo>
<mml:mn>1</mml:mn></mml:mrow>
<mml:mi>n</mml:mi></mml:munderover>
<mml:mrow>
<mml:msub>
<mml:mi>κ</mml:mi>
<mml:mi>x</mml:mi></mml:msub></mml:mrow>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:msub>
<mml:mi>X</mml:mi>
<mml:mi>i</mml:mi></mml:msub></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow>
<mml:mspace width="0.2em"/>
<mml:mover>
<mml:mo stretchy="true">→</mml:mo>
<mml:mrow>
<mml:mi>L</mml:mi>
<mml:mi>L</mml:mi>
<mml:mi>N</mml:mi></mml:mrow></mml:mover>
<mml:mspace width="0.2em"/>
<mml:mi>E</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:msub>
<mml:mi>κ</mml:mi>
<mml:mi>x</mml:mi></mml:msub>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mi>X</mml:mi>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow>
<mml:mo>=</mml:mo>
<mml:mrow>
<mml:msubsup>
<mml:mo mathvariant="italic">∫</mml:mo>
<mml:mrow>
<mml:mo>-</mml:mo>
<mml:mo>∞</mml:mo></mml:mrow>
<mml:mo>∞</mml:mo></mml:msubsup>
<mml:mrow>
<mml:mo>Ω</mml:mo>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mi>X</mml:mi>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:mrow>
<mml:msub>
<mml:mi>κ</mml:mi>
<mml:mi>x</mml:mi></mml:msub>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mi>X</mml:mi>
<mml:mo stretchy="false">)</mml:mo></mml:mrow>
<mml:mi>d</mml:mi>
<mml:mi>X</mml:mi>
<mml:mo>=</mml:mo>
<mml:mrow>
<mml:msubsup>
<mml:mo mathvariant="italic">∫</mml:mo>
<mml:mrow>
<mml:mo>-</mml:mo>
<mml:mo>∞</mml:mo></mml:mrow>
<mml:mi>x</mml:mi></mml:msubsup>
<mml:mrow>
<mml:mo>Ω</mml:mo>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mi>X</mml:mi>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:mrow>
<mml:mi>d</mml:mi>
<mml:mi>X</mml:mi></mml:mrow></mml:semantics></mml:math></disp-formula> <italic>i.e.</italic>, the cumulative density function <italic>c.d.f.</italic>(<italic>X</italic>). Therefore we define
<disp-formula id="FD26">
<mml:math id="mm69" display="block">
<mml:semantics id="sm69">
<mml:mtable>
<mml:mtd>
<mml:mtr>
<mml:mrow>
<mml:msub>
<mml:mover accent="true">
<mml:mi>H</mml:mi>
<mml:mo>¯</mml:mo></mml:mover>
<mml:mi>e</mml:mi></mml:msub>
<mml:mo>=</mml:mo>
<mml:mo>-</mml:mo>
<mml:mfrac>
<mml:mn>1</mml:mn>
<mml:mi>n</mml:mi></mml:mfrac>
<mml:munderover>
<mml:mo>∑</mml:mo>
<mml:mrow>
<mml:mi>j</mml:mi>
<mml:mo>=</mml:mo>
<mml:mn>1</mml:mn></mml:mrow>
<mml:mi>n</mml:mi></mml:munderover>
<mml:mrow>
<mml:mo>log</mml:mo>
<mml:mspace width="0.2em"/>
<mml:msub>
<mml:mi>P</mml:mi>
<mml:mi>e</mml:mi></mml:msub></mml:mrow>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:msub>
<mml:mi>X</mml:mi>
<mml:mi>j</mml:mi></mml:msub></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow>
<mml:mo>=</mml:mo>
<mml:mo>-</mml:mo>
<mml:mfrac>
<mml:mn>1</mml:mn>
<mml:mi>n</mml:mi></mml:mfrac>
<mml:munderover>
<mml:mo>∑</mml:mo>
<mml:mrow>
<mml:mi>j</mml:mi>
<mml:mo>=</mml:mo>
<mml:mn>1</mml:mn></mml:mrow>
<mml:mi>n</mml:mi></mml:munderover>
<mml:mrow>
<mml:mo>log</mml:mo>
<mml:mspace width="0.2em"/>
<mml:mfrac>
<mml:mrow>
<mml:msubsup>
<mml:mo>∑</mml:mo>
<mml:mrow>
<mml:mi>i</mml:mi>
<mml:mo>=</mml:mo>
<mml:mn>1</mml:mn></mml:mrow>
<mml:mi>n</mml:mi></mml:msubsup>
<mml:mrow>
<mml:msub>
<mml:mi>κ</mml:mi>
<mml:mrow>
<mml:msub>
<mml:mi>X</mml:mi>
<mml:mi>j</mml:mi></mml:msub>
<mml:mo>+</mml:mo>
<mml:mrow>
<mml:mrow>
<mml:mi>δ</mml:mi>
<mml:mi>X</mml:mi></mml:mrow>
<mml:mo>/</mml:mo>
<mml:mn>2</mml:mn></mml:mrow></mml:mrow></mml:msub>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:msub>
<mml:mi>X</mml:mi>
<mml:mi>i</mml:mi></mml:msub></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow>
<mml:mo>-</mml:mo>
<mml:msubsup>
<mml:mo>∑</mml:mo>
<mml:mrow>
<mml:mi>i</mml:mi>
<mml:mo>=</mml:mo>
<mml:mn>1</mml:mn></mml:mrow>
<mml:mi>n</mml:mi></mml:msubsup>
<mml:mrow>
<mml:msub>
<mml:mo>κ</mml:mo>
<mml:mrow>
<mml:mrow>
<mml:msub>
<mml:mi>X</mml:mi>
<mml:mi>j</mml:mi></mml:msub>
<mml:mo>+</mml:mo>
<mml:mo>δ</mml:mo>
<mml:mi>X</mml:mi>
<mml:mo stretchy="false">/</mml:mo>
<mml:mn>2</mml:mn></mml:mrow></mml:mrow></mml:msub>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:msub>
<mml:mi>X</mml:mi>
<mml:mi>i</mml:mi></mml:msub></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:mrow></mml:mrow>
<mml:mrow>
<mml:mi>n</mml:mi>
<mml:mi>δ</mml:mi>
<mml:mi>X</mml:mi></mml:mrow></mml:mfrac></mml:mrow></mml:mrow></mml:mtr></mml:mtd>
<mml:mtd>
<mml:mtr>
<mml:mover>
<mml:mo stretchy="true">→</mml:mo>
<mml:mrow>
<mml:mtext mathvariant="italic">LLN</mml:mtext></mml:mrow></mml:mover>
<mml:mo>-</mml:mo>
<mml:mi>E</mml:mi>
<mml:mrow>
<mml:mo stretchy="true">(</mml:mo>
<mml:mrow>
<mml:mo>log</mml:mo>
<mml:mfrac>
<mml:mrow>
<mml:msubsup>
<mml:mo>∑</mml:mo>
<mml:mrow>
<mml:mi>i</mml:mi>
<mml:mo>=</mml:mo>
<mml:mn>1</mml:mn></mml:mrow>
<mml:mi>n</mml:mi></mml:msubsup>
<mml:mrow>
<mml:msub>
<mml:mi>κ</mml:mi>
<mml:mrow>
<mml:msub>
<mml:mi>X</mml:mi>
<mml:mi>j</mml:mi></mml:msub>
<mml:mo>+</mml:mo>
<mml:mrow>
<mml:mrow>
<mml:mi>δ</mml:mi>
<mml:mi>X</mml:mi></mml:mrow>
<mml:mo>/</mml:mo>
<mml:mn>2</mml:mn></mml:mrow></mml:mrow></mml:msub>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:msub>
<mml:mi>X</mml:mi>
<mml:mi>i</mml:mi></mml:msub></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow>
<mml:mo>-</mml:mo>
<mml:msubsup>
<mml:mo>∑</mml:mo>
<mml:mrow>
<mml:mi>i</mml:mi>
<mml:mo>=</mml:mo>
<mml:mn>1</mml:mn></mml:mrow>
<mml:mi>n</mml:mi></mml:msubsup>
<mml:mrow>
<mml:msub>
<mml:mi>κ</mml:mi>
<mml:mrow>
<mml:msub>
<mml:mi>X</mml:mi>
<mml:mi>j</mml:mi></mml:msub>
<mml:mo>-</mml:mo>
<mml:mrow>
<mml:mrow>
<mml:mi>δ</mml:mi>
<mml:mi>X</mml:mi></mml:mrow>
<mml:mo>/</mml:mo>
<mml:mn>2</mml:mn></mml:mrow></mml:mrow></mml:msub>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:msub>
<mml:mi>X</mml:mi>
<mml:mi>i</mml:mi></mml:msub></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:mrow></mml:mrow>
<mml:mrow>
<mml:mi>n</mml:mi>
<mml:mi>δ</mml:mi>
<mml:mi>X</mml:mi></mml:mrow></mml:mfrac></mml:mrow>
<mml:mo stretchy="true">)</mml:mo></mml:mrow></mml:mtr></mml:mtd>
<mml:mtd>
<mml:mtr>
<mml:mrow>
<mml:mo>→</mml:mo>
<mml:mo>-</mml:mo>
<mml:mi>E</mml:mi>
<mml:mrow>
<mml:mo stretchy="true">(</mml:mo>
<mml:mrow>
<mml:mo>log</mml:mo>
<mml:mfrac>
<mml:mrow>
<mml:mi>c</mml:mi>
<mml:mo>.</mml:mo>
<mml:mi>d</mml:mi>
<mml:mo>.</mml:mo>
<mml:mi>f</mml:mi>
<mml:mo>.</mml:mo>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:mi>X</mml:mi>
<mml:mo>+</mml:mo>
<mml:mrow>
<mml:mrow>
<mml:mi>δ</mml:mi>
<mml:mi>X</mml:mi></mml:mrow>
<mml:mo>/</mml:mo>
<mml:mn>2</mml:mn></mml:mrow></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow>
<mml:mo>-</mml:mo>
<mml:mi>c</mml:mi>
<mml:mo>.</mml:mo>
<mml:mi>d</mml:mi>
<mml:mo>.</mml:mo>
<mml:mi>f</mml:mi>
<mml:mo>.</mml:mo>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:mi>X</mml:mi>
<mml:mo>-</mml:mo>
<mml:mrow>
<mml:mrow>
<mml:mi>δ</mml:mi>
<mml:mi>X</mml:mi></mml:mrow>
<mml:mo>/</mml:mo>
<mml:mn>2</mml:mn></mml:mrow></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow>
<mml:mrow>
<mml:mi>δ</mml:mi>
<mml:mi>X</mml:mi></mml:mrow></mml:mfrac></mml:mrow>
<mml:mo stretchy="true">)</mml:mo></mml:mrow></mml:mrow></mml:mtr></mml:mtd></mml:mtable></mml:semantics></mml:math></disp-formula> By construction we choose <italic>δx</italic> ∝ 1/<italic>n</italic> → 0 as <italic>n</italic> → ∞. Then by the Fundamental Theorem of Calculus,
<disp-formula id="FD27">
<mml:math id="mm70" display="block">
<mml:semantics id="sm70">
<mml:mrow>
<mml:msub>
<mml:mover accent="true">
<mml:mi>H</mml:mi>
<mml:mo>¯</mml:mo></mml:mover>
<mml:mi>e</mml:mi></mml:msub>
<mml:mspace width="0.2em"/>
<mml:mover>
<mml:mo stretchy="true">→</mml:mo>
<mml:mrow>
<mml:mtext mathvariant="italic">LLN</mml:mtext></mml:mrow></mml:mover>
<mml:mo>-</mml:mo>
<mml:mi>E</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:mo>log</mml:mo>
<mml:mo>Ω</mml:mo>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mi>X</mml:mi>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow>
<mml:mo>=</mml:mo>
<mml:mo>-</mml:mo>
<mml:mrow>
<mml:msubsup>
<mml:mo>∫</mml:mo>
<mml:mrow>
<mml:mo>-</mml:mo>
<mml:mo>∞</mml:mo></mml:mrow>
<mml:mo>∞</mml:mo></mml:msubsup>
<mml:mrow>
<mml:mo>Ω</mml:mo>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mi>X</mml:mi>
<mml:mo stretchy="false">)</mml:mo></mml:mrow>
<mml:mo>log</mml:mo>
<mml:mo>Ω</mml:mo>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mi>X</mml:mi>
<mml:mo stretchy="false">)</mml:mo></mml:mrow>
<mml:mtext mathvariant="italic">dX</mml:mtext></mml:mrow></mml:mrow>
<mml:mo>=</mml:mo>
<mml:mi>H</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:mo>Ω</mml:mo>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mi>X</mml:mi>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:semantics></mml:math></disp-formula> For example, we can construct <italic>δx</italic> ∝ 1/<italic>n</italic> as follows: For each sample point <italic>X<sub>j</sub></italic>, find its <italic>m</italic> nearest neighbors (sample points), where <italic>m</italic> is a relatively small constant. Then set
<disp-formula id="FD28">
<mml:math id="mm71" display="block">
<mml:semantics id="sm71">
<mml:mrow>
<mml:mi>δ</mml:mi>
<mml:mi>x</mml:mi>
<mml:mo>=</mml:mo>
<mml:mspace width="0.2em"/>
<mml:mrow>
<mml:mo stretchy="false">|</mml:mo>
<mml:mrow>
<mml:msub>
<mml:mi>X</mml:mi>
<mml:mrow>
<mml:mi>j</mml:mi>
<mml:mo>:</mml:mo>
<mml:mi>m</mml:mi></mml:mrow></mml:msub></mml:mrow></mml:mrow>
<mml:mo>-</mml:mo>
<mml:mrow>
<mml:mrow>
<mml:msub>
<mml:mi>X</mml:mi>
<mml:mi>j</mml:mi></mml:msub></mml:mrow>
<mml:mo stretchy="false">|</mml:mo></mml:mrow>
<mml:mspace width="0.2em"/>
<mml:mo>+</mml:mo>
<mml:mrow>
<mml:mo stretchy="false">|</mml:mo>
<mml:mrow>
<mml:msub>
<mml:mi>X</mml:mi>
<mml:mrow>
<mml:mi>j</mml:mi>
<mml:mo>:</mml:mo>
<mml:mi>m</mml:mi>
<mml:mo>-</mml:mo>
<mml:mn>1</mml:mn></mml:mrow></mml:msub></mml:mrow></mml:mrow>
<mml:mo>-</mml:mo>
<mml:mrow>
<mml:mrow>
<mml:msub>
<mml:mi>X</mml:mi>
<mml:mi>j</mml:mi></mml:msub></mml:mrow>
<mml:mo stretchy="false">|</mml:mo></mml:mrow>
<mml:mspace width="0.2em"/></mml:mrow></mml:semantics></mml:math></disp-formula> where we use the notation <italic>X<sub>j:m</sub></italic> to mean the “<italic>m</italic> -th nearest neighbor of point <italic>X<sub>j</sub></italic>” . Note that the interval [<italic>X<sub>j</sub></italic> − <italic>δx</italic>/2, <italic>X<sub>j</sub></italic> + <italic>δx</italic>/2] contains <italic>m</italic> − 1 sample points (not including <italic>X<sub>j</sub></italic> itself, to avoid the inherent bias that would introduce; this in turn requires replacing the <italic>n</italic> in the log-denominator with <italic>n</italic> − 1). This implementation of the 
<inline-formula>
<mml:math id="mm72" display="inline">
<mml:semantics id="sm72">
<mml:mover accent="true">
<mml:mrow>
<mml:msub>
<mml:mi>H</mml:mi>
<mml:mi>e</mml:mi></mml:msub></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover></mml:semantics></mml:math></inline-formula> calculation is simply:
<disp-formula id="FD29">
<mml:math id="mm73" display="block">
<mml:semantics id="sm73">
<mml:mrow>
<mml:msub>
<mml:mover accent="true">
<mml:mi>H</mml:mi>
<mml:mo>¯</mml:mo></mml:mover>
<mml:mi>e</mml:mi></mml:msub>
<mml:mo>=</mml:mo>
<mml:mo>-</mml:mo>
<mml:mfrac>
<mml:mn>1</mml:mn>
<mml:mi>n</mml:mi></mml:mfrac>
<mml:munderover>
<mml:mo>∑</mml:mo>
<mml:mrow>
<mml:mi>j</mml:mi>
<mml:mo>=</mml:mo>
<mml:mn>1</mml:mn></mml:mrow>
<mml:mi>n</mml:mi></mml:munderover>
<mml:mrow>
<mml:mo>log</mml:mo>
<mml:mfrac>
<mml:mrow>
<mml:mi>m</mml:mi>
<mml:mo>-</mml:mo>
<mml:mn>1</mml:mn></mml:mrow>
<mml:mrow>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:mi>n</mml:mi>
<mml:mo>-</mml:mo>
<mml:mn>1</mml:mn></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:mrow>
<mml:mo stretchy="false">|</mml:mo>
<mml:mrow>
<mml:msub>
<mml:mi>X</mml:mi>
<mml:mrow>
<mml:mi>j</mml:mi>
<mml:mo>:</mml:mo>
<mml:mi>m</mml:mi></mml:mrow></mml:msub>
<mml:mo>-</mml:mo>
<mml:mrow>
<mml:mrow>
<mml:msub>
<mml:mi>X</mml:mi>
<mml:mi>j</mml:mi></mml:msub></mml:mrow>
<mml:mo stretchy="false">|</mml:mo></mml:mrow></mml:mrow></mml:mrow>
<mml:mo>+</mml:mo>
<mml:mrow>
<mml:mo stretchy="false">|</mml:mo>
<mml:mrow>
<mml:msub>
<mml:mi>X</mml:mi>
<mml:mrow>
<mml:mi>j</mml:mi>
<mml:mo>:</mml:mo>
<mml:mi>m</mml:mi>
<mml:mo>-</mml:mo>
<mml:mn>1</mml:mn></mml:mrow></mml:msub>
<mml:mo>-</mml:mo>
<mml:mrow>
<mml:mrow>
<mml:msub>
<mml:mi>X</mml:mi>
<mml:mi>j</mml:mi></mml:msub></mml:mrow>
<mml:mo stretchy="false">|</mml:mo></mml:mrow></mml:mrow></mml:mrow></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:mfrac></mml:mrow></mml:mrow></mml:semantics></mml:math></disp-formula> There are of course many possible empirical density estimation implementations that could be used; we offer this implementation solely as an illustrative example. This implementation also generalizes to multidimensional data, and thus can be used to estimate mutual information [<xref ref-type="bibr" rid="b13-information-02-00017">13</xref>,<xref ref-type="bibr" rid="b14-information-02-00017">14</xref>].</p>
<p>Of course, the empirical entropy has the usual lower bound estimator from the Law of Large Numbers
<disp-formula id="FD30">
<mml:math id="mm74" display="block">
<mml:semantics id="sm74">
<mml:mrow>
<mml:msub>
<mml:mi>H</mml:mi>
<mml:mrow>
<mml:mi>e</mml:mi>
<mml:mo>,</mml:mo>
<mml:mo>∈</mml:mo></mml:mrow></mml:msub>
<mml:mo>=</mml:mo>
<mml:msub>
<mml:mover accent="true">
<mml:mi>H</mml:mi>
<mml:mo>¯</mml:mo></mml:mover>
<mml:mi>e</mml:mi></mml:msub>
<mml:mo>-</mml:mo>
<mml:msqrt>
<mml:mrow>
<mml:mfrac>
<mml:mrow>
<mml:mover>
<mml:mrow>
<mml:mtext mathvariant="italic">Var</mml:mtext>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:mo>log</mml:mo>
<mml:mspace width="0.2em"/>
<mml:msub>
<mml:mi>P</mml:mi>
<mml:mi>e</mml:mi></mml:msub></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover></mml:mrow>
<mml:mrow>
<mml:mi>n</mml:mi>
<mml:mspace width="0.3em"/>
<mml:mo>∈</mml:mo></mml:mrow></mml:mfrac></mml:mrow></mml:msqrt></mml:mrow></mml:semantics></mml:math></disp-formula></p></sec>
<sec>
<label>3.4.</label>
<title>Potential Information Estimators</title>
<p>This gives us mean and lower bounds estimators for the potential information
<disp-formula id="FD31">
<mml:math id="mm75" display="block">
<mml:semantics id="sm75">
<mml:mtable>
<mml:mrow>
<mml:mtd>
<mml:mrow>
<mml:mover accent="true">
<mml:mrow>
<mml:msub>
<mml:mi>I</mml:mi>
<mml:mi>p</mml:mi></mml:msub></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover>
<mml:mo>=</mml:mo>
<mml:mo>-</mml:mo>
<mml:mover accent="true">
<mml:mrow>
<mml:msub>
<mml:mi>H</mml:mi>
<mml:mi>e</mml:mi></mml:msub></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover>
<mml:mo>-</mml:mo>
<mml:mover accent="true">
<mml:mrow>
<mml:msub>
<mml:mi>L</mml:mi>
<mml:mi>e</mml:mi></mml:msub></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover></mml:mrow></mml:mtd></mml:mrow>
<mml:mrow>
<mml:mtd>
<mml:mrow>
<mml:msub>
<mml:mi>I</mml:mi>
<mml:mrow>
<mml:mi>p</mml:mi>
<mml:mo>,</mml:mo>
<mml:mo>∈</mml:mo></mml:mrow></mml:msub>
<mml:mo>=</mml:mo>
<mml:mover accent="true">
<mml:mrow>
<mml:msub>
<mml:mi>I</mml:mi>
<mml:mi>p</mml:mi></mml:msub></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover>
<mml:mo>-</mml:mo>
<mml:msqrt>
<mml:mrow>
<mml:mfrac>
<mml:mrow>
<mml:mover>
<mml:mrow>
<mml:mtext mathvariant="italic">Var</mml:mtext>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:mo>log</mml:mo>
<mml:mspace width="0.2em"/>
<mml:msub>
<mml:mi>P</mml:mi>
<mml:mi>e</mml:mi></mml:msub>
<mml:mo>-</mml:mo>
<mml:msub>
<mml:mi>L</mml:mi>
<mml:mi>e</mml:mi></mml:msub></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover></mml:mrow>
<mml:mrow>
<mml:mi>n</mml:mi>
<mml:mspace width="0.3em"/>
<mml:mo>∈</mml:mo></mml:mrow></mml:mfrac></mml:mrow></mml:msqrt></mml:mrow></mml:mtd></mml:mrow></mml:mtable></mml:semantics></mml:math></disp-formula> where the variance is computed from <italic>P<sub>e</sub></italic> and <italic>L<sub>e</sub></italic> pairs calculated from the same sample of observations.</p>
<p>Note that since the potential information is computed in “observation space” instead of “model space”, the computational complexity of its calculation depends primarily on the observation sample size. This can be very efficient. First of all, the calculation divides into two parts that can be done separately; since the empirical entropy has no dependence on the model Ψ, it need only be calculated once and can then used for computing <italic>I<sub>p</sub></italic> for many different models. Second, the empirical entropy calculation can have low computational complexity. For the simple implementation outlined above, it is simply <italic>O</italic>(<italic>mn</italic>) (where <italic>m</italic> is a small constant for the nearest-neighbor density calculation; this assumes the observations are already sorted in order. If not, an additional <italic>O</italic>(<italic>n</italic> log <italic>n</italic>) step is required to sort them). For high dimensional data, the computational complexity scales as <italic>O</italic>(<italic>n</italic><sup>2</sup>), due to the need to calculate pairwise distances. Of course, the details of the computational complexity will vary depending on what empirical entropy implementation is used.</p></sec>
<sec>
<label>3.5.</label>
<title>Convergence to the Kullback-Leibler Distance</title>
<p>In the limit of large sample size, the potential information converges to
<disp-formula id="FD32">
<mml:math id="mm76" display="block">
<mml:semantics id="sm76">
<mml:mrow>
<mml:mover accent="true">
<mml:mrow>
<mml:msub>
<mml:mi>I</mml:mi>
<mml:mi>p</mml:mi></mml:msub></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover>
<mml:mspace width="0.2em"/>
<mml:mover>
<mml:mo stretchy="true">→</mml:mo>
<mml:mrow>
<mml:mtext mathvariant="italic">LLN</mml:mtext></mml:mrow></mml:mover>
<mml:mspace width="0.2em"/>
<mml:mi>E</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:mo>log</mml:mo>
<mml:mspace width="0.2em"/>
<mml:mo>Ω</mml:mo>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mi>X</mml:mi>
<mml:mo stretchy="false">)</mml:mo></mml:mrow>
<mml:mo>-</mml:mo>
<mml:mo>log</mml:mo>
<mml:mspace width="0.2em"/>
<mml:mo>Ψ</mml:mo>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mi>X</mml:mi>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow>
<mml:mo>=</mml:mo>
<mml:mi>D</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:mo>Ω</mml:mo>
<mml:mspace width="0.2em"/>
<mml:mo>∥</mml:mo>
<mml:mspace width="0.2em"/>
<mml:mo>Ψ</mml:mo></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:semantics></mml:math></disp-formula> which is simply the relative entropy (Kullback-Leibler divergence [<xref ref-type="bibr" rid="b15-information-02-00017">15</xref>]) of the true distribution <italic>vs.</italic> the model. (It should be emphasized that computing the Kullback-Leibler divergence directly requires knowing the true distribution, which of course in any inference problem is unknown).</p>
<p>We may thus consider the potential information to represent a distance estimator from the true distribution Ω. Specifically, it estimates the difference in prediction power of our current model <italic>vs.</italic> that of the true distribution. Thus it solves the Inference Halting metric problem; if we are searching for a model with prediction power within distance <italic>δ</italic> of the maximum, we simply halt when
<disp-formula id="FD33">
<mml:math id="mm77" display="block">
<mml:semantics id="sm77">
<mml:mrow>
<mml:mover accent="true">
<mml:mrow>
<mml:msub>
<mml:mi>I</mml:mi>
<mml:mi>p</mml:mi></mml:msub></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover>
<mml:mo>+</mml:mo>
<mml:msqrt>
<mml:mrow>
<mml:mfrac>
<mml:mrow>
<mml:mover>
<mml:mrow>
<mml:mtext mathvariant="italic">Var</mml:mtext>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:mo>log</mml:mo>
<mml:mspace width="0.2em"/>
<mml:msub>
<mml:mi>P</mml:mi>
<mml:mi>e</mml:mi></mml:msub>
<mml:mo>-</mml:mo>
<mml:msub>
<mml:mi>L</mml:mi>
<mml:mi>e</mml:mi></mml:msub></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover></mml:mrow>
<mml:mrow>
<mml:mi>n</mml:mi>
<mml:mspace width="0.3em"/>
<mml:mo>∈</mml:mo></mml:mrow></mml:mfrac></mml:mrow></mml:msqrt>
<mml:mo>≤</mml:mo>
<mml:mi>δ</mml:mi></mml:mrow></mml:semantics></mml:math></disp-formula> at whatever level of confidence 1 — <italic>∈</italic> we desire.</p>
<p>The Akaike Information Criterion (AIC) [<xref ref-type="bibr" rid="b3-information-02-00017">3</xref>] and related information metrics [<xref ref-type="bibr" rid="b16-information-02-00017">16</xref>] are often referred to as representing the Kullback-Leibler (KL) divergence of the true distribution <italic>vs.</italic> the model [<xref ref-type="bibr" rid="b17-information-02-00017">17</xref>]. So it is logical to ask how the potential information differs from these well-known metrics. The AIC and related metrics were designed for <italic>model selection</italic> problems, in which the observable (characterized by the true distribution Ω) is treated as a fixed constant, and the model is varied in search of the best fit. As shown in part <bold>A</bold> of <xref ref-type="fig" rid="f2-information-02-00017"><italic>Figure 2</italic></xref>: <italic>Comparing AIC and Potential Information to the Theoretical Kullback-Leibler Divergence</italic>, the AIC does indeed correlate directly with the KL divergence <italic>D</italic>(Ω‖Ψ) under this assumption (holding the true distribution fixed as a constant). Specifically, for a sample of exchangeable observations 
<inline-formula>
<mml:math id="mm78" display="inline">
<mml:semantics id="sm78">
<mml:mrow>
<mml:msup>
<mml:mover accent="true">
<mml:mi>X</mml:mi>
<mml:mo>⃗</mml:mo></mml:mover>
<mml:mrow>
<mml:mi>n</mml:mi></mml:mrow></mml:msup></mml:mrow></mml:semantics></mml:math></inline-formula>,
<disp-formula id="FD34">
<mml:math id="mm79" display="block">
<mml:semantics id="sm79">
<mml:mrow>
<mml:mtext mathvariant="italic">AIC</mml:mtext>
<mml:mo>=</mml:mo>
<mml:mn>2</mml:mn>
<mml:mi>k</mml:mi>
<mml:mo>-</mml:mo>
<mml:mn>2</mml:mn>
<mml:mspace width="0.2em"/>
<mml:mtext mathvariant="italic">log</mml:mtext>
<mml:mspace width="0.2em"/>
<mml:mo>Ψ</mml:mo>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:msup>
<mml:mover accent="true">
<mml:mi>X</mml:mi>
<mml:mo>→</mml:mo></mml:mover>
<mml:mi>n</mml:mi></mml:msup></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow>
<mml:mo>=</mml:mo>
<mml:mn>2</mml:mn>
<mml:mi>k</mml:mi>
<mml:mo>-</mml:mo>
<mml:mn>2</mml:mn>
<mml:mi>n</mml:mi>
<mml:mover accent="true">
<mml:mrow>
<mml:mi>L</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mo>Ψ</mml:mo>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover></mml:mrow></mml:semantics></mml:math></disp-formula> So as <italic>n</italic> → ∞,
<disp-formula id="FD35">
<mml:math id="mm80" display="block">
<mml:semantics id="sm80">
<mml:mrow>
<mml:mfrac>
<mml:mn>1</mml:mn>
<mml:mrow>
<mml:mn>2</mml:mn>
<mml:mi>n</mml:mi></mml:mrow></mml:mfrac>
<mml:mtext mathvariant="italic">AIC</mml:mtext>
<mml:mspace width="0.2em"/>
<mml:mover>
<mml:mo stretchy="true">→</mml:mo>
<mml:mrow>
<mml:mtext mathvariant="italic">LLN</mml:mtext></mml:mrow></mml:mover>
<mml:mo>-</mml:mo>
<mml:mi>E</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:mi>L</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mo>Ψ</mml:mo>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:semantics></mml:math></disp-formula> Thus the AIC converges to the negative log-likelihood, whereas the KL divergence <italic>D</italic>(Ω‖Ψ) = −<italic>H</italic>(Ω(<italic>X</italic>)) − <italic>E</italic>(<italic>L</italic>(Ψ)) also contains an entropy term −<italic>H</italic>(Ω(<italic>X</italic>)). However, if the true distribution Ω(<italic>X</italic>) is held fixed, then the AIC differs from the KL divergence only by a constant. So for comparing two different models Ψ1, Ψ2, the difference in their AIC values converges to
<disp-formula id="FD36">
<mml:math id="mm81" display="block">
<mml:semantics id="sm81">
<mml:mrow>
<mml:mfrac>
<mml:mn>1</mml:mn>
<mml:mrow>
<mml:mn>2</mml:mn>
<mml:mi>n</mml:mi></mml:mrow></mml:mfrac>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:mtext mathvariant="italic">AIC</mml:mtext>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:msub>
<mml:mo>Ψ</mml:mo>
<mml:mn>2</mml:mn></mml:msub></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow>
<mml:mo>-</mml:mo>
<mml:mtext mathvariant="italic">AIC</mml:mtext>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:msub>
<mml:mo>Ψ</mml:mo>
<mml:mn>1</mml:mn></mml:msub></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow>
<mml:mspace width="0.2em"/>
<mml:mover>
<mml:mo stretchy="true">→</mml:mo>
<mml:mrow>
<mml:mtext mathvariant="italic">LLN</mml:mtext></mml:mrow></mml:mover>
<mml:mspace width="0.2em"/>
<mml:mi>D</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:mo>Ω</mml:mo>
<mml:mspace width="0.2em"/>
<mml:mo>∥</mml:mo>
<mml:mspace width="0.2em"/>
<mml:msub>
<mml:mo>Ψ</mml:mo>
<mml:mn>2</mml:mn></mml:msub></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow>
<mml:mo>-</mml:mo>
<mml:mi>D</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:mo>Ω</mml:mo>
<mml:mspace width="0.2em"/>
<mml:mo>∥</mml:mo>
<mml:mspace width="0.2em"/>
<mml:msub>
<mml:mo>Ψ</mml:mo>
<mml:mn>1</mml:mn></mml:msub></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:semantics></mml:math></disp-formula> This is why the AIC and related likelihood metrics are often treated as a proxy for the KL divergence in model selection.</p>
<p>However, if the true distribution Ω is <italic>not</italic> treated as a fixed constant, and instead is allowed to vary, this simple relationship breaks. In that case, the AIC no longer correlates with the KL divergence (<xref ref-type="fig" rid="f2-information-02-00017">Figure 2B</xref>). By contrast, the potential information metric <italic>I<sub>p</sub>̅</italic> correlates with the KL divergence under <italic>all</italic> conditions (<xref ref-type="fig" rid="f2-information-02-00017">Figure 2C</xref>). The main difference between the potential information and the AIC is simply the empirical entropy term, which is included in the potential information metric but missing from the AIC:
<disp-formula id="FD37">
<mml:math id="mm82" display="block">
<mml:semantics id="sm82">
<mml:mrow>
<mml:mover accent="true">
<mml:mrow>
<mml:msub>
<mml:mi>I</mml:mi>
<mml:mi>p</mml:mi></mml:msub></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover>
<mml:mo>-</mml:mo>
<mml:mfrac>
<mml:mn>1</mml:mn>
<mml:mrow>
<mml:mn>2</mml:mn>
<mml:mi>n</mml:mi></mml:mrow></mml:mfrac>
<mml:mtext mathvariant="italic">AIC</mml:mtext>
<mml:mo>=</mml:mo>
<mml:mo>-</mml:mo>
<mml:mover accent="true">
<mml:mrow>
<mml:msub>
<mml:mi>H</mml:mi>
<mml:mi>e</mml:mi></mml:msub></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover>
<mml:mo>-</mml:mo>
<mml:mfrac>
<mml:mi>κ</mml:mi>
<mml:mi>n</mml:mi></mml:mfrac></mml:mrow></mml:semantics></mml:math></disp-formula>Thus, the potential information metric (and consequently, the empirical entropy term) is essential for any problem where
<list list-type="bullet">
<list-item>
<p>we need an estimate of the <italic>absolute</italic> value of the Kullback-Leibler divergence, rather than simply comparing its <italic>relative</italic> value for two models;</p></list-item>
<list-item>
<p>or we need to consider possible variation between <italic>different</italic> true distributions Ω (or equivalently, different observable variables X). For example, in <italic>experiment planning</italic> problems, we consider different possible experiments (different observable variables) in order to estimate how much information they are likely to yield [<xref ref-type="bibr" rid="b18-information-02-00017">18</xref>].</p></list-item></list></p></sec>
<sec>
<label>3.6.</label>
<title>Unbiased Empirical Posteriors</title>
<p>Standard Bayesian inference can grossly overestimate the posterior probability of a model term, because the sum of calculated terms is biased to underestimate the total <italic>p</italic>(<italic>X</italic>) summed over the complete infinite series. The empirical entropy provides a resolution to this problem. By the Asymptotic Equipartition theorem [<xref ref-type="bibr" rid="b1-information-02-00017">1</xref>], for a sample 
<inline-formula>
<mml:math id="mm83" display="inline">
<mml:semantics id="sm83">
<mml:mrow>
<mml:msup>
<mml:mover accent="true">
<mml:mi>X</mml:mi>
<mml:mo>⃗</mml:mo></mml:mover>
<mml:mrow>
<mml:mi>N</mml:mi></mml:mrow></mml:msup></mml:mrow></mml:semantics></mml:math></inline-formula> = {<italic>X</italic><sub>1</sub>, <italic>X</italic><sub>2</sub>, …<italic>X<sub>N</sub></italic>} of exchangeable observations of size <italic>N</italic>
<disp-formula id="FD38">
<mml:math id="mm84" display="block">
<mml:semantics id="sm84">
<mml:mrow>
<mml:mfrac>
<mml:mn>1</mml:mn>
<mml:mi>N</mml:mi></mml:mfrac>
<mml:munderover>
<mml:mo>∑</mml:mo>
<mml:mrow>
<mml:mi>i</mml:mi>
<mml:mo>=</mml:mo>
<mml:mn>1</mml:mn></mml:mrow>
<mml:mi>N</mml:mi></mml:munderover>
<mml:mrow>
<mml:mo>log</mml:mo>
<mml:mi>p</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:msub>
<mml:mi>X</mml:mi>
<mml:mi>i</mml:mi></mml:msub></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow>
<mml:mspace width="0.2em"/>
<mml:mover>
<mml:mo stretchy="true">→</mml:mo>
<mml:mrow>
<mml:mtext mathvariant="italic">LLN</mml:mtext></mml:mrow></mml:mover>
<mml:mspace width="0.2em"/>
<mml:mi>E</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:mo>log</mml:mo>
<mml:mspace width="0.2em"/>
<mml:mi>p</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mi>X</mml:mi>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow>
<mml:mo>=</mml:mo>
<mml:munder>
<mml:mo>∑</mml:mo>
<mml:mrow>
<mml:mo>∀</mml:mo>
<mml:mi>X</mml:mi></mml:mrow></mml:munder>
<mml:mrow>
<mml:mo>Ω</mml:mo>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mi>X</mml:mi>
<mml:mo stretchy="false">)</mml:mo></mml:mrow>
<mml:mo>log</mml:mo></mml:mrow>
<mml:mo>Ω</mml:mo>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mi>X</mml:mi>
<mml:mo stretchy="false">)</mml:mo></mml:mrow>
<mml:mo>=</mml:mo>
<mml:mo>-</mml:mo>
<mml:mi>H</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:mo>Ω</mml:mo>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mi>X</mml:mi>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:semantics></mml:math></disp-formula>and thus we can therefore estimate <italic>p</italic>(
<inline-formula>
<mml:math id="mm85" display="inline">
<mml:semantics id="sm85">
<mml:mrow>
<mml:msup>
<mml:mover accent="true">
<mml:mi>X</mml:mi>
<mml:mo>⃗</mml:mo></mml:mover>
<mml:mrow>
<mml:mi>N</mml:mi></mml:mrow></mml:msup></mml:mrow></mml:semantics></mml:math></inline-formula>) via
<disp-formula id="FD39">
<mml:math id="mm86" display="block">
<mml:semantics id="sm86">
<mml:mrow>
<mml:mi>p</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:msup>
<mml:mrow>
<mml:mover accent="true">
<mml:mi>X</mml:mi>
<mml:mo stretchy="true">→</mml:mo></mml:mover></mml:mrow>
<mml:mi>N</mml:mi></mml:msup></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow>
<mml:mo>=</mml:mo>
<mml:munderover>
<mml:mo>∏</mml:mo>
<mml:mrow>
<mml:mi>i</mml:mi>
<mml:mo>=</mml:mo>
<mml:mn>1</mml:mn></mml:mrow>
<mml:mi>N</mml:mi></mml:munderover>
<mml:mrow>
<mml:mi>p</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:msub>
<mml:mi>X</mml:mi>
<mml:mi>i</mml:mi></mml:msub></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow>
<mml:mspace width="0.2em"/>
<mml:mover>
<mml:mo stretchy="true">→</mml:mo>
<mml:mrow>
<mml:mtext mathvariant="italic">LLN</mml:mtext></mml:mrow></mml:mover>
<mml:mo>exp</mml:mo>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:mo>-</mml:mo>
<mml:msub>
<mml:mtext mathvariant="italic">NH</mml:mtext>
<mml:mi>e</mml:mi></mml:msub></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:semantics></mml:math></disp-formula> This provides an unbiased estimator of the posterior probability of a model term <italic>θ</italic>
<disp-formula id="FD40">
<mml:math id="mm87" display="block">
<mml:semantics id="sm87">
<mml:mrow>
<mml:msub>
<mml:mi>p</mml:mi>
<mml:mi>e</mml:mi></mml:msub>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:mi>θ</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">|</mml:mo>
<mml:mrow>
<mml:msup>
<mml:mrow>
<mml:mover accent="true">
<mml:mi>X</mml:mi>
<mml:mo stretchy="true">→</mml:mo></mml:mover></mml:mrow>
<mml:mi>N</mml:mi></mml:msup></mml:mrow></mml:mrow></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow>
<mml:mo>=</mml:mo>
<mml:mfrac>
<mml:mrow>
<mml:mi>p</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:mrow>
<mml:mrow>
<mml:msup>
<mml:mrow>
<mml:mover accent="true">
<mml:mi>X</mml:mi>
<mml:mo stretchy="true">→</mml:mo></mml:mover></mml:mrow>
<mml:mi>N</mml:mi></mml:msup></mml:mrow>
<mml:mo stretchy="false">|</mml:mo></mml:mrow>
<mml:mi>θ</mml:mi></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow>
<mml:mi>p</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mi>θ</mml:mi>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow>
<mml:mrow>
<mml:mo>exp</mml:mo>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:mo>-</mml:mo>
<mml:msub>
<mml:mtext mathvariant="italic">NH</mml:mtext>
<mml:mi>e</mml:mi></mml:msub></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:mfrac></mml:mrow></mml:semantics></mml:math></disp-formula> We designate this the “empirical posterior” probability of model term θ, with confidence interval:
<disp-formula id="FD41">
<mml:math id="mm88" display="block">
<mml:semantics id="sm88">
<mml:mrow>
<mml:mi>p</mml:mi>
<mml:mrow>
<mml:mo stretchy="true">(</mml:mo>
<mml:mrow>
<mml:msub>
<mml:mi>p</mml:mi>
<mml:mi>e</mml:mi></mml:msub>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:mrow>
<mml:mi>θ</mml:mi>
<mml:mo stretchy="false">|</mml:mo></mml:mrow>
<mml:msup>
<mml:mrow>
<mml:mover accent="true">
<mml:mi>X</mml:mi>
<mml:mo stretchy="true">→</mml:mo></mml:mover></mml:mrow>
<mml:mi>N</mml:mi></mml:msup></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow>
<mml:mo>exp</mml:mo>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:mo>-</mml:mo>
<mml:mi>N</mml:mi>
<mml:mi>δ</mml:mi></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow>
<mml:mo>≤</mml:mo>
<mml:mi>p</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:mrow>
<mml:mi>θ</mml:mi>
<mml:mo stretchy="false">|</mml:mo></mml:mrow>
<mml:msup>
<mml:mrow>
<mml:mover accent="true">
<mml:mi>X</mml:mi>
<mml:mo stretchy="true">→</mml:mo></mml:mover></mml:mrow>
<mml:mi>N</mml:mi></mml:msup></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow>
<mml:mo>≤</mml:mo>
<mml:msub>
<mml:mi>p</mml:mi>
<mml:mi>e</mml:mi></mml:msub>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:mrow>
<mml:mi>θ</mml:mi>
<mml:mo stretchy="false">|</mml:mo></mml:mrow>
<mml:msup>
<mml:mrow>
<mml:mover accent="true">
<mml:mi>X</mml:mi>
<mml:mo stretchy="true">→</mml:mo></mml:mover></mml:mrow>
<mml:mi>N</mml:mi></mml:msup></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow>
<mml:mo>exp</mml:mo>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:mo>-</mml:mo>
<mml:mi>N</mml:mi>
<mml:mi>δ</mml:mi></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow>
<mml:mo stretchy="true">)</mml:mo></mml:mrow>
<mml:mo>≥</mml:mo>
<mml:mn>1</mml:mn>
<mml:mo>-</mml:mo>
<mml:mfrac>
<mml:mrow>
<mml:mn>4</mml:mn>
<mml:mtext mathvariant="italic">Var</mml:mtext>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:mo>log</mml:mo>
<mml:mspace width="0.2em"/>
<mml:msub>
<mml:mi>P</mml:mi>
<mml:mi>e</mml:mi></mml:msub></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow>
<mml:mrow>
<mml:mi>N</mml:mi>
<mml:msup>
<mml:mi>δ</mml:mi>
<mml:mn>2</mml:mn></mml:msup></mml:mrow></mml:mfrac></mml:mrow></mml:semantics></mml:math></disp-formula></p></sec>
<sec>
<label>3.7.</label>
<title>The Model Self-Consistency Test</title>
<p>We note that a more limited convergence test is possible, by reversing the procedure, and calculating the entropy of the model (which can be done directly, either analytically or by simulation). We define a self-consistency measure
<disp-formula id="FD42">
<mml:math id="mm89" display="block">
<mml:semantics id="sm89">
<mml:mrow>
<mml:msub>
<mml:mi>δ</mml:mi>
<mml:mrow>
<mml:mtext mathvariant="italic">SC</mml:mtext></mml:mrow></mml:msub>
<mml:mo>=</mml:mo>
<mml:mo>-</mml:mo>
<mml:mi>H</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:mo>Ψ</mml:mo>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mi>X</mml:mi>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow>
<mml:mo>-</mml:mo>
<mml:mover accent="true">
<mml:mrow>
<mml:msub>
<mml:mi>L</mml:mi>
<mml:mi>e</mml:mi></mml:msub></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover></mml:mrow></mml:semantics></mml:math></disp-formula> where <italic>H</italic>(Ψ(<italic>X</italic>)) is the entropy of our model.</p>
<p>For Ψ → Ω, <italic>δ<sub>SC</sub></italic> → 0. We use this fact to construct a test
<disp-formula id="FD43">
<mml:math id="mm90" display="block">
<mml:semantics id="sm90">
<mml:mrow>
<mml:mo stretchy="false">|</mml:mo>
<mml:mspace width="0.2em"/>
<mml:mo>-</mml:mo>
<mml:mi>H</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:mo>Ψ</mml:mo>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mi>X</mml:mi>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow>
<mml:mo>-</mml:mo>
<mml:mrow>
<mml:mrow>
<mml:mover accent="true">
<mml:mrow>
<mml:msub>
<mml:mi>L</mml:mi>
<mml:mi>e</mml:mi></mml:msub></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover></mml:mrow>
<mml:mo stretchy="false">|</mml:mo></mml:mrow>
<mml:mspace width="0.2em"/>
<mml:mo>&gt;</mml:mo>
<mml:mspace width="0.2em"/>
<mml:msqrt>
<mml:mrow>
<mml:mfrac>
<mml:mrow>
<mml:mover accent="true">
<mml:mrow>
<mml:mtext mathvariant="italic">Var</mml:mtext>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:msub>
<mml:mi>L</mml:mi>
<mml:mi>e</mml:mi></mml:msub></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover></mml:mrow>
<mml:mrow>
<mml:mi>n</mml:mi>
<mml:mspace width="0.3em"/>
<mml:mo>∈</mml:mo></mml:mrow></mml:mfrac></mml:mrow></mml:msqrt></mml:mrow></mml:semantics></mml:math></disp-formula>for rejecting the null hypothesis that Ψ = Ω at confidence 1 − <italic>∈</italic>.</p></sec></sec>
<sec>
<label>4.</label>
<title>Model Information</title>
<sec>
<label>4.1.</label>
<title>What is “Prediction”?</title>
<p>We defined our empirical information metric as a measure of prediction power. However, it seems worthwhile to ask again what exactly we mean by “prediction”. The empirical density estimation procedure outlined above suggests that in the limit of large sample size there is always a trivial way of obtaining perfect prediction power: Copy the empirical density for <italic>X</italic> as our “likelihood model” for <italic>X</italic>, and show that it accurately predicts new observations of <italic>X</italic>. Such a procedure does not seem to qualify as “prediction”; we simply copied the observed density. In this case all the information for the “prediction” came from the observed data, and none at all from the modeling procedure itself. This suggest several conclusions:
<list list-type="bullet">
<list-item>
<p>We desire a metric for the <italic>intrinsic</italic> prediction power of a model, above and beyond just copying the existing observation density. We will refer to this as <italic>I<sub>m</sub></italic>, the <italic>model information</italic>.</p></list-item>
<list-item>
<p>Generalizing our original definition of “prediction power”, we wish to maximize our prediction accuracy not only for situations that we have already observed, but also for novel situations that we have never encountered before. In other words, we adopt the conservative position that our data may be incomplete, so we cannot assume that future experience will simply mirror past experience. To maximize future prediction power, we must seek models that predict future observations more accurately than simply interpolating from past observations.</p></list-item>
<list-item>
<p>Of course, we do not know <italic>a priori</italic> that such models even exist; that is a strictly empirical question. We simply generate models and measure whether they have such intrinsic prediction power, <italic>i.e.</italic>, <italic>I<sub>m</sub></italic> &gt; 0.</p></list-item>
<list-item>
<p>By definition, such a measurement can only be performed via <italic>new observations</italic>, e.g., a regionof observation space that we have not observed before. As we will show in a moment, a regionthat has already been observed (thoroughly) cannot yield significant model information, becausethe past observations already provide a good density image for predicting future observations inthis region.</p></list-item>
<list-item>
<p>Thus, we can consider the adoption of a new model to be a <italic>cut</italic> on the temporal sequence ofobservations, partitioning them into two sets: The “old” observations (those taken before theadoption of the model), and the “new” observations (those taken after the adoption of the model).</p></list-item></list></p></sec>
<sec>
<label>4.2.</label>
<title>Defining Model Information</title>
<p>The key question of model information is whether the model yields better prediction power than simple interpolation from past observations. As the interpolation reference, we simply use the empirical density calculation defined previously. Specifically, for a model Ψ we define its model information as
<disp-formula id="FD44">
<mml:math id="mm91" display="block">
<mml:semantics id="sm91">
<mml:mrow>
<mml:mover accent="true">
<mml:mrow>
<mml:msub>
<mml:mi>I</mml:mi>
<mml:mi>m</mml:mi></mml:msub>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mo>Ψ</mml:mo>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover>
<mml:mo>=</mml:mo>
<mml:mover accent="true">
<mml:mrow>
<mml:msub>
<mml:mi>L</mml:mi>
<mml:mi>e</mml:mi></mml:msub>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:mo>Ψ</mml:mo>
<mml:mrow>
<mml:mo stretchy="false">|</mml:mo>
<mml:mrow>
<mml:mtext mathvariant="italic">new</mml:mtext></mml:mrow></mml:mrow></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover>
<mml:mo>+</mml:mo>
<mml:mover accent="true">
<mml:mrow>
<mml:msub>
<mml:mi>H</mml:mi>
<mml:mi>e</mml:mi></mml:msub>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:mtext mathvariant="italic">new</mml:mtext>
<mml:mo>,</mml:mo>
<mml:mtext mathvariant="italic">old</mml:mtext></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover></mml:mrow></mml:semantics></mml:math></disp-formula>where 
<inline-formula>
<mml:math id="mm92" display="inline">
<mml:semantics id="sm92">
<mml:mover accent="true">
<mml:mrow>
<mml:msub>
<mml:mi>L</mml:mi>
<mml:mi>e</mml:mi></mml:msub>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:mo>Ψ</mml:mo>
<mml:mrow>
<mml:mo stretchy="false">|</mml:mo>
<mml:mrow>
<mml:mtext mathvariant="italic">new</mml:mtext></mml:mrow></mml:mrow></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover></mml:semantics></mml:math></inline-formula> is calculated specifically using the <italic>new</italic> observations, and we define 
<inline-formula>
<mml:math id="mm93" display="inline">
<mml:semantics id="sm93">
<mml:mover accent="true">
<mml:mrow>
<mml:mrow>
<mml:msub>
<mml:mi>H</mml:mi>
<mml:mi>e</mml:mi></mml:msub></mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mtext mathvariant="italic">new</mml:mtext>
<mml:mo>,</mml:mo>
<mml:mtext mathvariant="italic">old</mml:mtext>
<mml:mo stretchy="false">)</mml:mo></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover></mml:semantics></mml:math></inline-formula> = 
<inline-formula>
<mml:math id="mm94" display="inline">
<mml:semantics id="sm94">
<mml:mrow>
<mml:mo>−</mml:mo>
<mml:mover accent="true">
<mml:mrow>
<mml:msub>
<mml:mi>L</mml:mi>
<mml:mi>e</mml:mi></mml:msub>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:msub>
<mml:mi>P</mml:mi>
<mml:mrow>
<mml:mi>e</mml:mi>
<mml:mo>,</mml:mo>
<mml:mtext mathvariant="italic">old</mml:mtext></mml:mrow></mml:msub>
<mml:mo stretchy="false">|</mml:mo>
<mml:mtext mathvariant="italic">new</mml:mtext>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover></mml:mrow></mml:semantics></mml:math></inline-formula> as the <italic>empirical cross entropy</italic> of the <italic>new</italic> observations versus the <italic>old</italic> observations; <italic>P<sub>e,old</sub></italic> is the empirical density estimator from the <italic>old</italic> observations. One example implementation (based on the previous empirical density estimator) is
<disp-formula id="FD45">
<mml:math id="mm95" display="block">
<mml:semantics id="sm95">
<mml:mtable>
<mml:mtd>
<mml:mtr>
<mml:mrow>
<mml:mover accent="true">
<mml:mrow>
<mml:msub>
<mml:mi>H</mml:mi>
<mml:mi>e</mml:mi></mml:msub>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:mtext mathvariant="italic">new</mml:mtext>
<mml:mo>,</mml:mo>
<mml:mtext mathvariant="italic">old</mml:mtext></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover>
<mml:mo>=</mml:mo>
<mml:mo>-</mml:mo>
<mml:mfrac>
<mml:mn>1</mml:mn>
<mml:mi>n</mml:mi></mml:mfrac>
<mml:munderover>
<mml:mo>∑</mml:mo>
<mml:mrow>
<mml:mi>j</mml:mi>
<mml:mo>=</mml:mo>
<mml:mn>1</mml:mn></mml:mrow>
<mml:mi>n</mml:mi></mml:munderover>
<mml:mrow>
<mml:mo>log</mml:mo>
<mml:mfrac>
<mml:mrow>
<mml:msubsup>
<mml:mo>∑</mml:mo>
<mml:mrow>
<mml:mi>i</mml:mi>
<mml:mo>=</mml:mo>
<mml:mn>1</mml:mn></mml:mrow>
<mml:mrow>
<mml:msub>
<mml:mi>n</mml:mi>
<mml:mtext mathvariant="italic">old</mml:mtext></mml:msub></mml:mrow></mml:msubsup>
<mml:mrow>
<mml:msub>
<mml:mi>κ</mml:mi>
<mml:mrow>
<mml:msub>
<mml:mi>X</mml:mi>
<mml:mrow>
<mml:mi>j</mml:mi>
<mml:mo>,</mml:mo>
<mml:mtext mathvariant="italic">new</mml:mtext></mml:mrow></mml:msub>
<mml:mo>+</mml:mo>
<mml:mi>δ</mml:mi>
<mml:mi>x</mml:mi>
<mml:mo stretchy="false">/</mml:mo>
<mml:mn>2</mml:mn></mml:mrow></mml:msub></mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:msub>
<mml:mi>X</mml:mi>
<mml:mrow>
<mml:mi>i</mml:mi>
<mml:mo>,</mml:mo>
<mml:mtext mathvariant="italic">old</mml:mtext></mml:mrow></mml:msub></mml:mrow>
<mml:mo stretchy="false">)</mml:mo>
<mml:mo>−</mml:mo>
<mml:msubsup>
<mml:mo>∑</mml:mo>
<mml:mrow>
<mml:mi>i</mml:mi>
<mml:mo>=</mml:mo>
<mml:mn>1</mml:mn></mml:mrow>
<mml:mrow>
<mml:msub>
<mml:mi>n</mml:mi>
<mml:mtext mathvariant="italic">old</mml:mtext></mml:msub></mml:mrow></mml:msubsup>
<mml:mrow>
<mml:msub>
<mml:mi>κ</mml:mi>
<mml:mrow>
<mml:msub>
<mml:mi>X</mml:mi>
<mml:mrow>
<mml:mi>j</mml:mi>
<mml:mo>,</mml:mo>
<mml:mtext mathvariant="italic">new</mml:mtext></mml:mrow></mml:msub>
<mml:mo>+</mml:mo>
<mml:mi>δ</mml:mi>
<mml:mi>x</mml:mi>
<mml:mo stretchy="false">/</mml:mo>
<mml:mn>2</mml:mn></mml:mrow></mml:msub></mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:msub>
<mml:mi>X</mml:mi>
<mml:mrow>
<mml:mi>i</mml:mi>
<mml:mo>,</mml:mo>
<mml:mtext mathvariant="italic">old</mml:mtext></mml:mrow></mml:msub></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow>
<mml:mrow>
<mml:msub>
<mml:mi>n</mml:mi>
<mml:mtext mathvariant="italic">old</mml:mtext></mml:msub>
<mml:mo>δ</mml:mo>
<mml:mspace width="0.1em"/>
<mml:mi>x</mml:mi></mml:mrow></mml:mfrac></mml:mrow></mml:mrow></mml:mtr></mml:mtd>
<mml:mtd>
<mml:mtr>
<mml:mover>
<mml:mo stretchy="true">→</mml:mo>
<mml:mrow>
<mml:mtext mathvariant="italic">LLN</mml:mtext></mml:mrow></mml:mover>
<mml:mo>-</mml:mo>
<mml:mspace width="0.2em"/>
<mml:mrow>
<mml:msubsup>
<mml:mo mathvariant="italic">∫</mml:mo>
<mml:mrow>
<mml:mo>-</mml:mo>
<mml:mo>∞</mml:mo></mml:mrow>
<mml:mo>∞</mml:mo></mml:msubsup>
<mml:mrow>
<mml:mo>Ω</mml:mo>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mi>X</mml:mi>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:mrow>
<mml:mo>log</mml:mo>
<mml:mspace width="0.2em"/>
<mml:msub>
<mml:mi>P</mml:mi>
<mml:mrow>
<mml:mi>e</mml:mi>
<mml:mo>,</mml:mo>
<mml:mtext mathvariant="italic">old</mml:mtext></mml:mrow></mml:msub>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mi>X</mml:mi>
<mml:mo stretchy="false">)</mml:mo></mml:mrow>
<mml:mtext mathvariant="italic">dX</mml:mtext></mml:mtr></mml:mtd></mml:mtable></mml:semantics></mml:math></disp-formula> where <italic>X<sub>j,new</sub></italic> is the <italic>j</italic> th observation from the new observation set, <italic>X<sub>i</sub></italic><sub>,old</sub> is the <italic>i</italic> th observation from the old observations, <italic>n</italic> is the sample size of the new observations, and <italic>n<sub>old</sub></italic> is the sample size of the old observations. Many other 
<inline-formula>
<mml:math id="mm96" display="inline">
<mml:semantics id="sm96">
<mml:mover accent="true">
<mml:mrow>
<mml:msub>
<mml:mi>H</mml:mi>
<mml:mi>e</mml:mi></mml:msub>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mtext mathvariant="italic">new</mml:mtext>
<mml:mo>,</mml:mo>
<mml:mtext mathvariant="italic">old</mml:mtext>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover></mml:semantics></mml:math></inline-formula> estimation implementations are possible. It should be noted that proper normalization of the empirical density is especially important for cross-entropy calculation; however, we will not investigate such implementation details here.</p>
<p>Thus, 
<inline-formula>
<mml:math id="mm97" display="inline">
<mml:semantics id="sm97">
<mml:mover accent="true">
<mml:mrow>
<mml:msub>
<mml:mi>I</mml:mi>
<mml:mi>m</mml:mi></mml:msub></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover></mml:semantics></mml:math></inline-formula> measures whether the model's empirical log-likelihood 
<inline-formula>
<mml:math id="mm98" display="inline">
<mml:semantics id="sm98">
<mml:mover accent="true">
<mml:mrow>
<mml:msub>
<mml:mi>L</mml:mi>
<mml:mi>e</mml:mi></mml:msub></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover></mml:semantics></mml:math></inline-formula> on the <italic>new</italic> observations exceeds the average log-likelihood of the <italic>new</italic> observations computed from the <italic>old</italic> observation density, <italic>i.e.</italic>, 
<inline-formula>
<mml:math id="mm99" display="inline">
<mml:semantics id="sm99">
<mml:mrow>
<mml:mo>−</mml:mo>
<mml:mover accent="true">
<mml:mrow>
<mml:msub>
<mml:mi>H</mml:mi>
<mml:mi>e</mml:mi></mml:msub>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mtext mathvariant="italic">new</mml:mtext>
<mml:mo>,</mml:mo>
<mml:mtext mathvariant="italic">old</mml:mtext>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover></mml:mrow></mml:semantics></mml:math></inline-formula>. As for the potential information, we define a lower bound estimator for <italic>I<sub>m</sub></italic> with confidence level 1 − <italic>∈</italic> based on the Law of Large Numbers:
<disp-formula id="FD46">
<mml:math id="mm100" display="block">
<mml:semantics id="sm100">
<mml:mrow>
<mml:msub>
<mml:mi>I</mml:mi>
<mml:mrow>
<mml:mi>m</mml:mi>
<mml:mo>,</mml:mo>
<mml:mo>∈</mml:mo></mml:mrow></mml:msub>
<mml:mo>=</mml:mo>
<mml:mover accent="true">
<mml:mrow>
<mml:msub>
<mml:mi>I</mml:mi>
<mml:mi>m</mml:mi></mml:msub></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover>
<mml:mo>-</mml:mo>
<mml:msqrt>
<mml:mrow>
<mml:mfrac>
<mml:mrow>
<mml:mover accent="true">
<mml:mrow>
<mml:mi>V</mml:mi>
<mml:mi>a</mml:mi>
<mml:mi>r</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:msub>
<mml:mi>L</mml:mi>
<mml:mi>e</mml:mi></mml:msub>
<mml:mo>-</mml:mo>
<mml:mo>log</mml:mo>
<mml:mspace width="0.2em"/>
<mml:msub>
<mml:mi>P</mml:mi>
<mml:mrow>
<mml:mi>e</mml:mi>
<mml:mo>,</mml:mo>
<mml:mi>o</mml:mi>
<mml:mi>l</mml:mi>
<mml:mi>d</mml:mi></mml:mrow></mml:msub></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover></mml:mrow>
<mml:mrow>
<mml:mi>n</mml:mi>
<mml:mspace width="0.3em"/>
<mml:mo>∈</mml:mo></mml:mrow></mml:mfrac></mml:mrow></mml:msqrt></mml:mrow></mml:semantics></mml:math></disp-formula>
<list list-type="bullet">
<list-item>
<p>In the case <italic>n<sub>old</sub></italic> → 0 we make the density function converge to the uninformative prior based on the detector range for the observable <italic>X</italic>. That is, if the range of detectable values for <italic>X</italic> is [0,10] then <italic>P<sub>e</sub>,<sub>old</sub></italic>(<italic>X</italic>) → 1/10.</p></list-item>
<list-item>
<p>Note that the model information can be <italic>negative</italic>, indicating that the model has worse prediction power than the old empirical density estimator.</p></list-item></list></p></sec>
<sec>
<label>4.3.</label>
<title>Example: The Normal Distribution</title>
<p><italic><xref ref-type="fig" rid="f3-information-02-00017">Figure 3</xref>: Model Information of the Normal Distribution</italic>. We draw <italic>n<sub>old</sub></italic> observations from the unit normal distribution <italic>N</italic>(0,1) and compute the posterior likelihood distribution for this sample. We then draw a new sample of 100 observations from the same distribution and use it to measure <italic>I<sub>m</sub></italic> for our model. The model information is initially high because the normal model predicts the shape of the distribution much more accurately than simple interpolation from the <italic>old</italic> observation sample.</p></sec>
<sec>
<label>4.4.</label>
<title>Example: The Binomial Distribution</title>
<p>By contrast, the binomial distribution doesn't yield significant model information, because the observable has only two possible states (<italic>success</italic> or <italic>failure</italic>) for the model to predict, and the binomial model's prediction of its probability is just equivalent to the empirical probability in the training data:
<disp-formula id="FD47">
<mml:math id="mm101" display="block">
<mml:semantics id="sm101">
<mml:mrow>
<mml:mi>p</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:mrow>
<mml:mtext>success</mml:mtext></mml:mrow>
<mml:mo stretchy="false">|</mml:mo></mml:mrow>
<mml:msub>
<mml:mi>s</mml:mi>
<mml:mrow>
<mml:mtext mathvariant="italic">old</mml:mtext></mml:mrow></mml:msub>
<mml:mo>,</mml:mo>
<mml:msub>
<mml:mi>n</mml:mi>
<mml:mrow>
<mml:mtext mathvariant="italic">old</mml:mtext></mml:mrow></mml:msub></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow>
<mml:mo>=</mml:mo>
<mml:mfrac>
<mml:mrow>
<mml:msub>
<mml:mi>s</mml:mi>
<mml:mrow>
<mml:mtext mathvariant="italic">old</mml:mtext></mml:mrow></mml:msub>
<mml:mo>+</mml:mo>
<mml:mn>1</mml:mn></mml:mrow>
<mml:mrow>
<mml:msub>
<mml:mi>n</mml:mi>
<mml:mrow>
<mml:mtext mathvariant="italic">old</mml:mtext></mml:mrow></mml:msub>
<mml:mo>+</mml:mo>
<mml:mn>2</mml:mn></mml:mrow></mml:mfrac></mml:semantics></mml:math></disp-formula> where <italic>s<sub>old</sub></italic> is the count of <italic>successes</italic> in the training data, and <italic>n<sub>old</sub></italic> is the size of the training data set (the +1 and +2 arise from the pseudocount principle, derived by Laplace as his “rule of succession” [<xref ref-type="bibr" rid="b19-information-02-00017">19</xref>]). Fundamentally, since there is no “shape” for the model to predict (as there would be for a continuous variable, as in the case of the Normal distribution above), there is no way for the model to systematically outperform the empirical distribution.</p></sec></sec>
<sec>
<label>5.</label>
<title>Empirical Information Partition Rules</title>
<sec>
<label>5.1.</label>
<title>The I<sub>p</sub> + I<sub>e</sub>, I<sub>e</sub> − I<sub>m</sub>, I<sub>p</sub> + I<sub>m</sub> Partitions</title>
<p>We now briefly consider the relationships between potential information, empirical information and model information, illustrated in <xref ref-type="fig" rid="f4-information-02-00017"><italic>Figure 4</italic></xref>: <italic>Empirical Information Partition Rules</italic>.</p>
<list list-type="bullet">
<list-item>
<p><italic>All information originates as potential information</italic>. That is, before we have a successful model for a set of observations, our prediction power is no better than random, and this manifests as positive <italic>I<sub>p</sub></italic> and zero <italic>I<sub>e</sub></italic>.</p></list-item>
<list-item>
<p><italic>For a given observable X</italic>, <italic>the sum of I<sub>p</sub></italic> + <italic>I<sub>e</sub> is a constant</italic> (<italic>i.e.</italic>, <italic>independent of the model Ψ</italic>(<italic>X</italic>)). That is, for any observation sample 
<inline-formula>
<mml:math id="mm102" display="inline">
<mml:semantics id="sm102">
<mml:mrow>
<mml:msup>
<mml:mover accent="true">
<mml:mi>X</mml:mi>
<mml:mo>⃗</mml:mo></mml:mover>
<mml:mrow>
<mml:mi>n</mml:mi></mml:mrow></mml:msup></mml:mrow></mml:semantics></mml:math></inline-formula>,
<disp-formula id="FD48">
<mml:math id="mm103" display="block">
<mml:semantics id="sm103">
<mml:mrow>
<mml:mover accent="true">
<mml:mrow>
<mml:msub>
<mml:mi>I</mml:mi>
<mml:mi>p</mml:mi></mml:msub>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mo>Ψ</mml:mo>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover>
<mml:mo>+</mml:mo>
<mml:mover accent="true">
<mml:mrow>
<mml:msub>
<mml:mi>I</mml:mi>
<mml:mi>e</mml:mi></mml:msub>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mo>Ψ</mml:mo>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover>
<mml:mo>=</mml:mo>
<mml:mo>-</mml:mo>
<mml:mover accent="true">
<mml:mrow>
<mml:msub>
<mml:mi>H</mml:mi>
<mml:mi>e</mml:mi></mml:msub></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover>
<mml:mo>-</mml:mo>
<mml:mover accent="true">
<mml:mrow>
<mml:msub>
<mml:mi>L</mml:mi>
<mml:mi>e</mml:mi></mml:msub>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mo>Ψ</mml:mo>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover>
<mml:mo>+</mml:mo>
<mml:mover accent="true">
<mml:mrow>
<mml:msub>
<mml:mi>L</mml:mi>
<mml:mi>e</mml:mi></mml:msub>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mo>Ψ</mml:mo>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover>
<mml:mo>-</mml:mo>
<mml:mover accent="true">
<mml:mrow>
<mml:msub>
<mml:mi>L</mml:mi>
<mml:mi>e</mml:mi></mml:msub>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mi>p</mml:mi>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover>
<mml:mo>=</mml:mo>
<mml:mo>-</mml:mo>
<mml:mover accent="true">
<mml:mrow>
<mml:msub>
<mml:mi>H</mml:mi>
<mml:mi>e</mml:mi></mml:msub></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover>
<mml:mo>-</mml:mo>
<mml:mover accent="true">
<mml:mrow>
<mml:msub>
<mml:mi>L</mml:mi>
<mml:mi>e</mml:mi></mml:msub>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mi>p</mml:mi>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover>
<mml:mspace width="0.2em"/>
<mml:mo>=</mml:mo>
<mml:mover accent="true">
<mml:mrow>
<mml:msub>
<mml:mi>I</mml:mi>
<mml:mi>p</mml:mi></mml:msub>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mi>p</mml:mi>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover></mml:mrow></mml:semantics></mml:math></disp-formula> where <italic>p</italic>(<italic>X</italic>) is the uninformative distribution for <italic>X</italic>. For large sample size <italic>n</italic>
<disp-formula id="FD49">
<mml:math id="mm104" display="block">
<mml:semantics id="sm104">
<mml:mrow>
<mml:mover accent="true">
<mml:mrow>
<mml:msub>
<mml:mi>I</mml:mi>
<mml:mi>p</mml:mi></mml:msub>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mo>Ψ</mml:mo>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover>
<mml:mspace width="0.2em"/>
<mml:mo>+</mml:mo>
<mml:mover accent="true">
<mml:mrow>
<mml:msub>
<mml:mi>I</mml:mi>
<mml:mi>e</mml:mi></mml:msub>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mo>Ψ</mml:mo>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover>
<mml:mspace width="0.2em"/>
<mml:mo>=</mml:mo>
<mml:mover accent="true">
<mml:mrow>
<mml:msub>
<mml:mi>I</mml:mi>
<mml:mi>p</mml:mi></mml:msub>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mi>p</mml:mi>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover>
<mml:mspace width="0.2em"/>
<mml:mover>
<mml:mo stretchy="true">→</mml:mo>
<mml:mrow>
<mml:mtext mathvariant="italic">LLN</mml:mtext></mml:mrow></mml:mover>
<mml:mspace width="0.2em"/>
<mml:mi>D</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:mo>Ω</mml:mo>
<mml:mspace width="0.2em"/>
<mml:mo>∥</mml:mo>
<mml:mspace width="0.2em"/>
<mml:mi>p</mml:mi></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:semantics></mml:math></disp-formula> which is simply the relative entropy of the true distribution relative to the uninformative distribution <italic>p</italic>(<italic>X</italic>).</p></list-item>
<list-item>
<p><italic>Thus potential information is converted to empirical information by modeling</italic>. As the model Ψ becomes a more accurate image of the observation density, <italic>I<sub>p</sub></italic> decreases and <italic>I<sub>e</sub></italic> increases by the same amount.</p></list-item>
<list-item>
<p><italic>relation to mutual information:</italic> It must be emphasized that the mutual information <italic>I</italic>(<italic>X</italic>; Ω) is defined only if we know the complete joint distribution <italic>p</italic>(<italic>X</italic>, Ω). Since we do not know this joint distribution, we would like a sampling-based estimator for <italic>I</italic>(<italic>X</italic>; Ω). We can do this by simply sampling different inference cases Ω<sub>(1)</sub>, Ω<sub>(2)</sub>, … Ω<sub>(m)</sub> (represented by different observation samples 
<inline-formula>
<mml:math id="mm105" display="inline">
<mml:semantics id="sm105">
<mml:mrow>
<mml:msubsup>
<mml:mrow>
<mml:mover accent="true">
<mml:mi>X</mml:mi>
<mml:mo stretchy="true">→</mml:mo></mml:mover></mml:mrow>
<mml:mrow>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mn>1</mml:mn>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow>
<mml:mi>n</mml:mi></mml:msubsup>
<mml:mo>,</mml:mo>
<mml:msubsup>
<mml:mrow>
<mml:mover accent="true">
<mml:mi>X</mml:mi>
<mml:mo stretchy="true">→</mml:mo></mml:mover></mml:mrow>
<mml:mrow>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mn>2</mml:mn>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow>
<mml:mi>n</mml:mi></mml:msubsup>
<mml:mo>,</mml:mo>
<mml:mo>⋯</mml:mo>
<mml:msubsup>
<mml:mrow>
<mml:mover accent="true">
<mml:mi>X</mml:mi>
<mml:mo stretchy="true">→</mml:mo></mml:mover></mml:mrow>
<mml:mrow>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mi>m</mml:mi>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow>
<mml:mi>n</mml:mi></mml:msubsup></mml:mrow></mml:semantics></mml:math></inline-formula> Taking the average of 
<inline-formula>
<mml:math id="mm106" display="inline">
<mml:semantics id="sm106">
<mml:mover accent="true">
<mml:mrow>
<mml:msub>
<mml:mi>I</mml:mi>
<mml:mi>e</mml:mi></mml:msub>
<mml:mo stretchy="false">(</mml:mo>
<mml:mo>Ψ</mml:mo>
<mml:mo stretchy="false">)</mml:mo></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover></mml:semantics></mml:math></inline-formula> + 
<inline-formula>
<mml:math id="mm107" display="inline">
<mml:semantics id="sm107">
<mml:mover accent="true">
<mml:mrow>
<mml:msub>
<mml:mi>I</mml:mi>
<mml:mi>e</mml:mi></mml:msub>
<mml:mo stretchy="false">(</mml:mo>
<mml:mo>Ψ</mml:mo>
<mml:mo stretchy="false">)</mml:mo></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover></mml:semantics></mml:math></inline-formula> over a large number m of inference cases converges:
<disp-formula id="FD50">
<mml:math id="mm108" display="block">
<mml:semantics id="sm108">
<mml:mtable>
<mml:mtd>
<mml:mtr>
<mml:mrow>
<mml:mfrac>
<mml:mn>1</mml:mn>
<mml:mi>m</mml:mi></mml:mfrac>
<mml:mo>∑</mml:mo>
<mml:mrow>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:mover accent="true">
<mml:mrow>
<mml:msub>
<mml:mi>I</mml:mi>
<mml:mi>p</mml:mi></mml:msub></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover>
<mml:mo>+</mml:mo>
<mml:mover accent="true">
<mml:mrow>
<mml:msub>
<mml:mi>I</mml:mi>
<mml:mi>e</mml:mi></mml:msub></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow>
<mml:mspace width="0.2em"/>
<mml:munder accentunder="true">
<mml:mrow>
<mml:mtext mathvariant="italic">LLN</mml:mtext></mml:mrow>
<mml:mo stretchy="true">→</mml:mo></mml:munder>
<mml:mspace width="0.2em"/>
<mml:mo>-</mml:mo>
<mml:mi>E</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:mi>H</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:mi>p</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:mi>X</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">|</mml:mo>
<mml:mo>Ω</mml:mo></mml:mrow></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow>
<mml:mo>-</mml:mo>
<mml:mi>E</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:mo>log</mml:mo>
<mml:mspace width="0.2em"/>
<mml:mi>p</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mi>X</mml:mi>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:mtr></mml:mtd>
<mml:mtd>
<mml:mtr>
<mml:mo>=</mml:mo>
<mml:munder>
<mml:mo>∑</mml:mo>
<mml:mrow>
<mml:mi>X</mml:mi>
<mml:mo>,</mml:mo>
<mml:mo>Ω</mml:mo></mml:mrow></mml:munder>
<mml:mi>p</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:mi>X</mml:mi>
<mml:mo>,</mml:mo>
<mml:mo>Ω</mml:mo></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow>
<mml:mo>log</mml:mo>
<mml:mi>p</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mi>X</mml:mi>
<mml:mo stretchy="false">|</mml:mo>
<mml:mspace width="0.1em"/>
<mml:mo>Ω</mml:mo>
<mml:mo stretchy="false">)</mml:mo></mml:mrow>
<mml:mo>−</mml:mo>
<mml:munder>
<mml:mo>∑</mml:mo>
<mml:mrow>
<mml:mi>X</mml:mi>
<mml:mo>,</mml:mo>
<mml:mo>Ω</mml:mo></mml:mrow></mml:munder>
<mml:mi>p</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:mi>X</mml:mi>
<mml:mo>,</mml:mo>
<mml:mo>Ω</mml:mo></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow>
<mml:mo>log</mml:mo>
<mml:mi>p</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mi>X</mml:mi>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mtr></mml:mtd></mml:mtable></mml:semantics></mml:math></disp-formula> If we explicitly assume that the uninformative distribution used for computing the empirical information matches the true marginal distribution of <italic>X</italic>, then
<disp-formula id="FD51">
<mml:math id="mm109" display="block">
<mml:semantics id="sm109">
<mml:mrow>
<mml:mo>=</mml:mo>
<mml:mo>-</mml:mo>
<mml:mi>H</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:mi>X</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">|</mml:mo>
<mml:mo>Ω</mml:mo></mml:mrow></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow>
<mml:mo>+</mml:mo>
<mml:mi>H</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mi>X</mml:mi>
<mml:mo stretchy="false">)</mml:mo></mml:mrow>
<mml:mo>=</mml:mo>
<mml:mi>I</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:mi>X</mml:mi>
<mml:mo>;</mml:mo>
<mml:mo>Ω</mml:mo></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:semantics></mml:math></disp-formula> Thus, <italic>I<sub>p</sub></italic> + <italic>I<sub>e</sub></italic> may be considered to be a “sampleable version of the mutual information”; that is, it can be measured for any individual inference case, and its average over multiple inference problems will converge to the mutual information of the observable <italic>vs.</italic> hidden variables.</p></list-item>
<list-item>
<p><italic>For a given observable X</italic>, <italic>the sum of I<sub>e</sub></italic> − <italic>I<sub>m</sub> is a constant</italic>. (<italic>i.e., independent of the model</italic> Ψ(<italic>X</italic>)).Assuming both <italic>I<sub>e</sub></italic>, <italic>I<sub>m</sub></italic> are calculated on the same test data,
<disp-formula id="FD52">
<mml:math id="mm110" display="block">
<mml:semantics id="sm110">
<mml:mrow>
<mml:mover accent="true">
<mml:mrow>
<mml:msub>
<mml:mi>I</mml:mi>
<mml:mi>e</mml:mi></mml:msub>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mo>Ψ</mml:mo>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover>
<mml:mo>-</mml:mo>
<mml:mover accent="true">
<mml:mrow>
<mml:msub>
<mml:mi>I</mml:mi>
<mml:mi>m</mml:mi></mml:msub>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mo>Ψ</mml:mo>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover>
<mml:mo>=</mml:mo>
<mml:mover accent="true">
<mml:mrow>
<mml:msub>
<mml:mi>L</mml:mi>
<mml:mi>e</mml:mi></mml:msub>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mo>Ψ</mml:mo>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover>
<mml:mo>-</mml:mo>
<mml:mover accent="true">
<mml:mrow>
<mml:msub>
<mml:mi>L</mml:mi>
<mml:mi>e</mml:mi></mml:msub>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mi>p</mml:mi>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover>
<mml:mo>-</mml:mo>
<mml:mover accent="true">
<mml:mrow>
<mml:msub>
<mml:mi>L</mml:mi>
<mml:mi>e</mml:mi></mml:msub>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mo>Ψ</mml:mo>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover>
<mml:mo>+</mml:mo>
<mml:mover accent="true">
<mml:mrow>
<mml:msub>
<mml:mi>L</mml:mi>
<mml:mi>e</mml:mi></mml:msub>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:msub>
<mml:mi>P</mml:mi>
<mml:mrow>
<mml:mi>e</mml:mi>
<mml:mo>,</mml:mo>
<mml:mtext mathvariant="italic">old</mml:mtext></mml:mrow></mml:msub></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover>
<mml:mspace width="0.2em"/>
<mml:mo>=</mml:mo>
<mml:mo>-</mml:mo>
<mml:mover accent="true">
<mml:mrow>
<mml:msub>
<mml:mi>L</mml:mi>
<mml:mi>e</mml:mi></mml:msub>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mi>P</mml:mi>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover>
<mml:mo>+</mml:mo>
<mml:mover accent="true">
<mml:mrow>
<mml:msub>
<mml:mi>L</mml:mi>
<mml:mi>e</mml:mi></mml:msub>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:msub>
<mml:mi>P</mml:mi>
<mml:mrow>
<mml:mi>e</mml:mi>
<mml:mo>,</mml:mo>
<mml:mtext mathvariant="italic">old</mml:mtext></mml:mrow></mml:msub></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover></mml:mrow></mml:semantics></mml:math></disp-formula> where <italic>P<sub>e</sub>,<sub>old</sub></italic>(<italic>X</italic>) is the distribution of <italic>X</italic> computed from past observations (as described above). So for <italic>n</italic> → ∞
<disp-formula id="FD53">
<mml:math id="mm111" display="block">
<mml:semantics id="sm111">
<mml:mrow>
<mml:mover accent="true">
<mml:mrow>
<mml:msub>
<mml:mi>I</mml:mi>
<mml:mi>e</mml:mi></mml:msub>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mo>Ψ</mml:mo>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover>
<mml:mo>-</mml:mo>
<mml:mover accent="true">
<mml:mrow>
<mml:msub>
<mml:mi>I</mml:mi>
<mml:mi>m</mml:mi></mml:msub>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mo>Ψ</mml:mo>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover>
<mml:mover>
<mml:mo stretchy="true">→</mml:mo>
<mml:mrow>
<mml:mtext mathvariant="italic">LLN</mml:mtext></mml:mrow></mml:mover>
<mml:mi>D</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:mo>Ω</mml:mo>
<mml:mspace width="0.2em"/>
<mml:mo>∥</mml:mo>
<mml:mspace width="0.2em"/>
<mml:mi>p</mml:mi></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow>
<mml:mo>-</mml:mo>
<mml:mi>D</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:mo>Ω</mml:mo>
<mml:mspace width="0.2em"/>
<mml:mo>∥</mml:mo>
<mml:mspace width="0.2em"/>
<mml:msub>
<mml:mi>p</mml:mi>
<mml:mrow>
<mml:mi>e</mml:mi>
<mml:mo>,</mml:mo>
<mml:mtext mathvariant="italic">old</mml:mtext></mml:mrow></mml:msub></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:semantics></mml:math></disp-formula>Thus <italic>I<sub>e</sub></italic> − <italic>I<sub>m</sub></italic> measures the amount of information supplied by the past observations (in the form of <italic>P<sub>e</sub>,<sub>old</sub></italic>(<italic>X</italic>)).</p></list-item>
<list-item>
<p>Moreover, in the asymptotic limit, 
<inline-formula>
<mml:math id="mm112" display="inline">
<mml:semantics id="sm112">
<mml:mover accent="true">
<mml:mrow>
<mml:msub>
<mml:mi>I</mml:mi>
<mml:mi>e</mml:mi></mml:msub></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover></mml:semantics></mml:math></inline-formula> − 
<inline-formula>
<mml:math id="mm113" display="inline">
<mml:semantics id="sm113">
<mml:mover accent="true">
<mml:mrow>
<mml:msub>
<mml:mi>I</mml:mi>
<mml:mi>m</mml:mi></mml:msub></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover></mml:semantics></mml:math></inline-formula> ≥ 0 since for <italic>n<sub>old</sub></italic> → 0 we guarantee that <italic>P<sub>e</sub>,<sub>old</sub></italic>(<italic>X</italic>) → <italic>p</italic>(<italic>X</italic>) and for <italic>n<sub>old</sub></italic> → ∞ we have 
<inline-formula>
<mml:math id="mm114" display="inline">
<mml:semantics id="sm114">
<mml:mrow>
<mml:msub>
<mml:mi>P</mml:mi>
<mml:mrow>
<mml:mi>e</mml:mi>
<mml:mo>,</mml:mo>
<mml:mtext mathvariant="italic">old</mml:mtext></mml:mrow></mml:msub>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mi>X</mml:mi>
<mml:mo stretchy="false">)</mml:mo></mml:mrow>
<mml:mspace width="0.2em"/>
<mml:mover>
<mml:mo stretchy="true">→</mml:mo>
<mml:mrow>
<mml:mtext mathvariant="italic">LLN</mml:mtext></mml:mrow></mml:mover>
<mml:mspace width="0.2em"/>
<mml:mo>Ω</mml:mo>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mi>X</mml:mi>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:semantics></mml:math></inline-formula>.</p></list-item>
<list-item>
<p>Thus, <italic>I<sub>m</sub></italic> partitions <italic>I<sub>e</sub></italic> into the part that is simply provided by the training observations themselves, versus the part that actually constitutes “value added” predictive power of the model itself.</p></list-item>
<list-item>
<p><italic>For a given observable X</italic>, <italic>the sum of I<sub>p</sub></italic> + <italic>I<sub>m</sub> is a constant</italic> (<italic>i.e.</italic>, <italic>independent of the model</italic> Ψ(<italic>X</italic>)). Specifically, assuming both <italic>I<sub>p</sub></italic>, <italic>I<sub>m</sub></italic> are calculated on the same test data,
<disp-formula id="FD54">
<mml:math id="mm115" display="block">
<mml:semantics id="sm115">
<mml:mtable>
<mml:mtd>
<mml:mtr>
<mml:mrow>
<mml:mover accent="true">
<mml:mrow>
<mml:msub>
<mml:mi>I</mml:mi>
<mml:mi>p</mml:mi></mml:msub>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mo>Ψ</mml:mo>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover>
<mml:mo>+</mml:mo>
<mml:mover accent="true">
<mml:mrow>
<mml:msub>
<mml:mi>I</mml:mi>
<mml:mi>m</mml:mi></mml:msub>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mo>Ψ</mml:mo>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover>
<mml:mo>=</mml:mo>
<mml:mo>-</mml:mo>
<mml:mover accent="true">
<mml:mrow>
<mml:msub>
<mml:mi>H</mml:mi>
<mml:mi>e</mml:mi></mml:msub></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover>
<mml:mo>-</mml:mo>
<mml:mover accent="true">
<mml:mrow>
<mml:msub>
<mml:mi>L</mml:mi>
<mml:mi>e</mml:mi></mml:msub>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mo>Ψ</mml:mo>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover>
<mml:mo>+</mml:mo>
<mml:mover accent="true">
<mml:mrow>
<mml:msub>
<mml:mi>L</mml:mi>
<mml:mi>e</mml:mi></mml:msub>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mo>Ψ</mml:mo>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover>
<mml:mo>−</mml:mo>
<mml:mover accent="true">
<mml:mrow>
<mml:msub>
<mml:mi>L</mml:mi>
<mml:mi>e</mml:mi></mml:msub>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:msub>
<mml:mi>P</mml:mi>
<mml:mrow>
<mml:mi>e</mml:mi>
<mml:mo>,</mml:mo>
<mml:mtext mathvariant="italic">old</mml:mtext></mml:mrow></mml:msub></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover>
<mml:mo>=</mml:mo>
<mml:mover accent="true">
<mml:mrow>
<mml:msub>
<mml:mi>I</mml:mi>
<mml:mi>p</mml:mi></mml:msub>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:msub>
<mml:mi>P</mml:mi>
<mml:mrow>
<mml:mi>e</mml:mi>
<mml:mo>,</mml:mo>
<mml:mtext mathvariant="italic">old</mml:mtext></mml:mrow></mml:msub></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover></mml:mrow></mml:mtr></mml:mtd>
<mml:mtd>
<mml:mtr>
<mml:mover>
<mml:mo stretchy="true">→</mml:mo>
<mml:mrow>
<mml:mtext mathvariant="italic">LLN</mml:mtext></mml:mrow></mml:mover>
<mml:mspace width="0.2em"/>
<mml:mi>D</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:mo>Ω</mml:mo>
<mml:mspace width="0.2em"/>
<mml:mo>∥</mml:mo>
<mml:mspace width="0.2em"/>
<mml:msub>
<mml:mi>P</mml:mi>
<mml:mrow>
<mml:mi>e</mml:mi>
<mml:mo>,</mml:mo>
<mml:mtext mathvariant="italic">old</mml:mtext></mml:mrow></mml:msub></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mtr></mml:mtd></mml:mtable></mml:semantics></mml:math></disp-formula> which simply measures the amount of information available to be learned about the true distribution of <italic>X</italic> above and beyond that already provided by past observations (in the form of <italic>P<sub>e,old</sub></italic>(<italic>X</italic>)).</p></list-item>
<list-item>
<p><italic>Relation of I<sub>m</sub> to relative entropy</italic>: Note that since 
<inline-formula>
<mml:math id="mm116" display="inline">
<mml:semantics id="sm116">
<mml:mrow>
<mml:msub>
<mml:mi>I</mml:mi>
<mml:mi>p</mml:mi></mml:msub>
<mml:mspace width="0.2em"/>
<mml:mover>
<mml:mo stretchy="true">→</mml:mo>
<mml:mrow>
<mml:mtext mathvariant="italic">LLN</mml:mtext></mml:mrow></mml:mover>
<mml:mspace width="0.2em"/>
<mml:mi>D</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:mo>Ω</mml:mo>
<mml:mspace width="0.2em"/>
<mml:mo>∥</mml:mo>
<mml:mspace width="0.2em"/>
<mml:mo>Ψ</mml:mo></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:semantics></mml:math></inline-formula>, this also implies that 
<inline-formula>
<mml:math id="mm117" display="inline">
<mml:semantics id="sm117">
<mml:mrow>
<mml:msub>
<mml:mi>I</mml:mi>
<mml:mi>m</mml:mi></mml:msub>
<mml:mspace width="0.2em"/>
<mml:mover>
<mml:mo stretchy="true">→</mml:mo>
<mml:mrow>
<mml:mtext mathvariant="italic">LLN</mml:mtext></mml:mrow></mml:mover>
<mml:mspace width="0.2em"/>
<mml:mi>D</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:mo>Ω</mml:mo>
<mml:mspace width="0.2em"/>
<mml:mo>∥</mml:mo>
<mml:mspace width="0.2em"/>
<mml:msub>
<mml:mi>P</mml:mi>
<mml:mrow>
<mml:mi>e</mml:mi>
<mml:mo>,</mml:mo>
<mml:mtext mathvariant="italic">old</mml:mtext></mml:mrow></mml:msub></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow>
<mml:mo>-</mml:mo>
<mml:mi>D</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:mo>Ω</mml:mo>
<mml:mspace width="0.2em"/>
<mml:mo>∥</mml:mo>
<mml:mspace width="0.2em"/>
<mml:mo>Ψ</mml:mo></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:semantics></mml:math></inline-formula>. This simply restates the principle that the model information representsthe increase in model prediction power relative to the empirical density of the past observations.</p></list-item></list></sec>
<sec>
<label>5.2.</label>
<title>Asymptotic Conversion of Potential and Model Information to Empirical Information</title>
<p>Consider the following asymptotic modeling protocol: For a large sample size <italic>n<sub>old</sub></italic> → ∞ we simply adopt the empirical density <italic>P<sub>e</sub></italic><sub>,old</sub> as our model Ψ. We then measure <italic>I<sub>e</sub>,I<sub>p</sub>,I<sub>m</sub></italic> on a set of <italic>new</italic> observations.</p>
<p>As <italic>n<sub>old</sub></italic> → ∞, <italic>P<sub>e,old</sub></italic> (<italic>X</italic>) converges to the true density Ω (<italic>X</italic>), so 
<inline-formula>
<mml:math id="mm118" display="inline">
<mml:semantics id="sm118">
<mml:mrow>
<mml:msub>
<mml:mi>H</mml:mi>
<mml:mi>e</mml:mi></mml:msub>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:mtext mathvariant="italic">new</mml:mtext>
<mml:mo>,</mml:mo>
<mml:mtext mathvariant="italic">old</mml:mtext></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow>
<mml:mover>
<mml:mo stretchy="true">→</mml:mo>
<mml:mrow>
<mml:mtext mathvariant="italic">LLN</mml:mtext></mml:mrow></mml:mover>
<mml:mi>H</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:mo>Ω</mml:mo>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mi>X</mml:mi>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow></mml:semantics></mml:math></inline-formula> and
<disp-formula id="FD55">
<mml:math id="mm119" display="block">
<mml:semantics id="sm119">
<mml:mrow>
<mml:mover accent="true">
<mml:mrow>
<mml:msub>
<mml:mi>I</mml:mi>
<mml:mi>m</mml:mi></mml:msub></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover>
<mml:mspace width="0.2em"/>
<mml:mover>
<mml:mo stretchy="true">→</mml:mo>
<mml:mrow>
<mml:mtext mathvariant="italic">LLN</mml:mtext></mml:mrow></mml:mover>
<mml:mo>-</mml:mo>
<mml:mi>H</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:mo>Ω</mml:mo>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mi>X</mml:mi>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow>
<mml:mo>-</mml:mo>
<mml:mi>D</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:mo>Ω</mml:mo>
<mml:mspace width="0.2em"/>
<mml:mo>∥</mml:mo>
<mml:mspace width="0.2em"/>
<mml:mo>Ψ</mml:mo></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow>
<mml:mo>+</mml:mo>
<mml:mi>H</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:mo>Ω</mml:mo>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mi>X</mml:mi>
<mml:mo stretchy="false">)</mml:mo></mml:mrow></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow>
<mml:mo>=</mml:mo>
<mml:mo>-</mml:mo>
<mml:mi>D</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:mo>Ω</mml:mo>
<mml:mspace width="0.2em"/>
<mml:mo>∥</mml:mo>
<mml:mspace width="0.2em"/>
<mml:mo>Ψ</mml:mo></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow>
<mml:mo>≤</mml:mo>
<mml:mn>0</mml:mn></mml:mrow></mml:semantics></mml:math></disp-formula> Since the relative entropy is non-negative, the maximum attainable value of the model information drops asymptotically to zero. Moreover, as Ψ(<italic>X</italic>) = <italic>P<sub>e,old</sub></italic>(<italic>X</italic>) also converges to the true density Ω(<italic>X</italic>), 
<inline-formula>
<mml:math id="mm120" display="inline">
<mml:semantics id="sm120">
<mml:mrow>
<mml:mover accent="true">
<mml:mrow>
<mml:msub>
<mml:mi>I</mml:mi>
<mml:mi>p</mml:mi></mml:msub></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover>
<mml:mover>
<mml:mo stretchy="true">→</mml:mo>
<mml:mrow>
<mml:mtext mathvariant="italic">LLN</mml:mtext></mml:mrow></mml:mover>
<mml:mi>D</mml:mi>
<mml:mrow>
<mml:mo stretchy="false">(</mml:mo>
<mml:mrow>
<mml:mo>Ω</mml:mo>
<mml:mspace width="0.2em"/>
<mml:mo>∥</mml:mo>
<mml:mspace width="0.2em"/>
<mml:mo>Ω</mml:mo></mml:mrow>
<mml:mo stretchy="false">)</mml:mo></mml:mrow>
<mml:mo>=</mml:mo>
<mml:mn>0</mml:mn></mml:mrow></mml:semantics></mml:math></inline-formula>. Since both the model and potential information vanish, by the <italic>I<sub>p</sub></italic> + <italic>I<sub>e</sub></italic> and <italic>I<sub>e</sub></italic> − <italic>I<sub>m</sub></italic> partition rules, all information is converted exclusively to empirical information.</p>
<p>This scenario illustrates a simple point about the distinct meanings of empirical information <italic>vs.</italic> model information. The overriding goal of model selection is maximizing empirical information (likelihood). However, this scenario shows that maximizing the empirical information is in a sense trivial if one can collect a large enough observation sample. By contrast, there is no trivial way to produce positive model information; note that the very procedure that automatically maximizes <italic>I<sub>e</sub></italic> also ensures that <italic>I<sub>m</sub></italic> ≤ 0.</p>
<p>This suggests several changes in how we think about the value of modeling. In model selection, the value of a model is often thought of in terms of data compression; that is, that the best model encodes the underlying pattern of the data in the most efficient manner possible. Metrics such as the AIC and BIC seek to enforce this principle by adding “correction terms” that penalize the number of model parameters. However, to be truly valuable for prediction, a model should meet this data compression criterion not only retrospectively (<italic>i.e.</italic>, it can yield a more efficient encoding of the past observations) but also prospectively (<italic>i.e.</italic>, it can predict future observations more accurately than simply interpolating from the past observations). Whereas the total empirical information metric fails to draw this distinction, the model information explicitly measures it. That is, it partitions the total <italic>I<sub>e</sub></italic> into a “trivial” part that represents the prediction power implicit in the observation dataset itself, and a non-trivial part that represents true “predictions” coming from the model.</p></sec></sec>
<sec sec-type="conclusion">
<label>6.</label>
<title>Conclusion</title>
<p>We wish to suggest that these empirical information metrics represent a useful extension of existing statistical inference metrics, because they provide “sampleable” measures of key information theory metrics (such as mutual information and relative entropy), with explicit Law of Large Numbers convergence guarantees. That is, each empirical information metric can be measured via sampling on an individual inference problem (unlike the conventional definition of mutual information); Yet its average value over multiple inference problems will converge to the true, hidden value of its associated metric from information theory (such as the mutual information). On such a foundation, one can begin to recast statistical and scientific inference problems in terms of the very useful and general tools of information theory. For example, the “inference halting problem”, which imposes a variety of problems and limitations in Bayesian inference, can be easily resolved by the potential information metric, which directly measures the distance of the current model from the true distribution in standard information theoretic terms. Similarly, the model information metric measures the “value-added” prediction power of a model relative to its training data.</p></sec></body>
<back>
<sec sec-type="display-objects">
<title>Figures</title>
<fig id="f1-information-02-00017" position="float">
<label>Figure 1.</label>
<caption>
<p>Overfitting analysis of BIC models on a small sample from a normal distribution. For each data point, a sample of three observations was drawn randomly from a unit normal distribution. The BIC-optimal model was fit to these observations and used to compute the training <italic>vs.</italic> test log-likelihoods <italic>L̅ vs.</italic> 
<inline-formula>
<mml:math id="mm121" display="inline">
<mml:semantics id="sm121">
<mml:mover accent="true">
<mml:mrow>
<mml:msub>
<mml:mi>L</mml:mi>
<mml:mi>e</mml:mi></mml:msub></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover></mml:semantics></mml:math></inline-formula>, the latter calculated on an additional test sample of three observations drawn from the same unit normal. To generate the scatter plot, this process was performed a total of <italic>N</italic> = 100000 times. The mean value of 
<inline-formula>
<mml:math id="mm122" display="inline">
<mml:semantics id="sm122">
<mml:mover accent="true">
<mml:mrow>
<mml:msub>
<mml:mi>L</mml:mi>
<mml:mi>e</mml:mi></mml:msub></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover></mml:semantics></mml:math></inline-formula> for successive windows of 1000 observations sorted from left to right is plotted in red. The zero-bias line is shown in black (<italic>L̅</italic> = 
<inline-formula>
<mml:math id="mm123" display="inline">
<mml:semantics id="sm123">
<mml:mover accent="true">
<mml:mrow>
<mml:msub>
<mml:mi>L</mml:mi>
<mml:mi>e</mml:mi></mml:msub></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover></mml:semantics></mml:math></inline-formula>). Thus, the overfitting bias information <italic>I̅<sub>b</sub></italic> is given at any position on the graph by the vertical distance between the black and red lines. The white circle indicates the true expectation log-likelihood for the unit normal distribution. The dotted line marks the mean value of 
<inline-formula>
<mml:math id="mm124" display="inline">
<mml:semantics id="sm124">
<mml:mover accent="true">
<mml:mrow>
<mml:msub>
<mml:mi>L</mml:mi>
<mml:mi>e</mml:mi></mml:msub></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover></mml:semantics></mml:math></inline-formula> averaged over all 100,000 data points. Note that this figure shows only a portion of the full distribution, which has a long tail extending to large negative values of 
<inline-formula>
<mml:math id="mm125" display="inline">
<mml:semantics id="sm125">
<mml:mover accent="true">
<mml:mrow>
<mml:msub>
<mml:mi>L</mml:mi>
<mml:mi>e</mml:mi></mml:msub></mml:mrow>
<mml:mo>¯</mml:mo></mml:mover></mml:semantics></mml:math></inline-formula>.</p></caption>
<graphic xlink:href="information-02-00017f1.gif"/></fig>
<fig id="f2-information-02-00017" position="float">
<label>Figure 2.</label>
<caption>
<p>Comparing AIC and Potential Information to the Theoretical Kullback-Leibler Divergence. <bold>A.</bold> Comparison of AIC values <italic>vs.</italic> Kullback-Leibler divergence for a sample of 10,000 different models, with the true distribution fixed to the unit normal distribution <italic>N</italic>(<italic>0</italic>, 1). Each model was a normal distribution <italic>N</italic>(0, <italic>τ</italic><sup>2</sup>) <italic>where the standard deviation τ</italic> was drawn uniformly on the interva (0.1,2). For each model, the AIC was calculated using <italic>n</italic> = 1000 observations. <bold>B.</bold> The same comparison, with a variable true distribution Ω = <italic>N</italic>(<italic>0, σ</italic><sup>2</sup>) with standard deviation <italic>σ</italic> ∈ (0.1,2). Note the AIC no longer correlates with the Kullback-Leibler divergence. <bold>C.</bold> The same comparison as in <bold>B</bold>, except using the potential information metric. Note that it closely matches the theoretical Kullback-Leibler divergence 
<inline-formula>
<mml:math id="mm126" display="inline">
<mml:semantics id="sm126">
<mml:mrow>
<mml:mi>D</mml:mi>
<mml:mo stretchy="false">(</mml:mo>
<mml:mi>N</mml:mi>
<mml:mo stretchy="false">(</mml:mo>
<mml:mn>0</mml:mn>
<mml:mo>,</mml:mo>
<mml:msup>
<mml:mi>σ</mml:mi>
<mml:mn>2</mml:mn></mml:msup>
<mml:mo stretchy="false">)</mml:mo>
<mml:mo>∥</mml:mo>
<mml:mi>N</mml:mi>
<mml:mo stretchy="false">(</mml:mo>
<mml:mn>0</mml:mn>
<mml:mo>,</mml:mo>
<mml:msup>
<mml:mi>τ</mml:mi>
<mml:mn>2</mml:mn></mml:msup>
<mml:mo stretchy="false">)</mml:mo>
<mml:mo stretchy="false">)</mml:mo>
<mml:mo>=</mml:mo>
<mml:mo>log</mml:mo>
<mml:mfrac>
<mml:mi>τ</mml:mi>
<mml:mi>σ</mml:mi></mml:mfrac>
<mml:mo>+</mml:mo>
<mml:mfrac>
<mml:mrow>
<mml:msup>
<mml:mi>σ</mml:mi>
<mml:mn>2</mml:mn></mml:msup>
<mml:mo>−</mml:mo>
<mml:msup>
<mml:mi>r</mml:mi>
<mml:mn>2</mml:mn></mml:msup></mml:mrow>
<mml:mrow>
<mml:mn>2</mml:mn>
<mml:msup>
<mml:mi>τ</mml:mi>
<mml:mn>2</mml:mn></mml:msup></mml:mrow></mml:mfrac>
<mml:mo>.</mml:mo></mml:mrow></mml:semantics></mml:math></inline-formula></p></caption>
<graphic xlink:href="information-02-00017f2.gif"/></fig>
<fig id="f3-information-02-00017" position="float">
<label>Figure 3.</label>
<caption>
<p>Model information of the normal distribution. A model can exceed the prediction power of the empirical density computed from the training observations, because the model predicts the complete shape of the probability distribution, and how fast the tails will go to zero. Of course, as the training dataset size increases, the training data constitute a more and more accurate competing “model”, and the model information decreases asymptotically. For each dataset size, a sample of that size was drawn from a unit normal distribution, and used to train a normal distribution Ψ based on the sample mean and variance. We then computed <italic>I<sub>m</sub></italic>(Ψ) using a test sample of size 100 drawn from the unit normal. This procedure was repeated 1000 times, to obtain the average of <italic>I<sub>m</sub></italic>(Ψ) for that training dataset size.</p></caption>
<graphic xlink:href="information-02-00017f3.gif"/></fig>
<fig id="f4-information-02-00017" position="float">
<label>Figure 4.</label>
<caption>
<p>Empirical information partition rules. This diagram illustrates the three basic partition rules: 1. <bold>total information</bold>: <italic>I<sub>p</sub></italic> + <italic>I<sub>e</sub></italic> → <italic>D</italic>(Ω‖<italic>p</italic>) 2. <bold>new observations yield</bold>: <italic>I<sub>p</sub></italic> + <italic>I<sub>m</sub></italic> → <italic>D</italic>(Ω‖<italic>P<sub>e,old</sub></italic>) 3. <bold>old observations yield</bold>: <italic>I<sub>e</sub></italic> − <italic>I<sub>m</sub></italic> → <italic>D</italic>(Ω‖<italic>p</italic>) − <italic>D</italic>(Ω‖<italic>P<sub>e,old</sub></italic>). The vertical axis represents increasing information yield, starting from zero when there are no observations, to a maximum of <italic>D</italic>(Ω‖<italic>p</italic>). This axis is split by two intermediate points, the current model, Ψ(<italic>X</italic>); and the old observation density <italic>P<sub>e,old</sub></italic>(<italic>X</italic>). Colored intervals represent the three information metrics: <italic>I<sub>p</sub> (red)</italic>, <italic>I<sub>e</sub></italic> (green), <italic>I<sub>m</sub></italic> (blue).</p></caption>
<graphic xlink:href="information-02-00017f4.gif"/></fig></sec>
<ack>
<p>The author wishes to thank Marc Harper, Esfan Haghverdi, John Baez, Qing Zhou, Alex Alekseyenko, and Cosma Shalizi for helpful discussions on this work. This research was supported by the Office of Science (BER), U. S. Department of Energy, Cooperative Agreement No. DE-FC02-02ER63421.</p></ack>
<ref-list>
<title>References</title>
<ref id="b1-information-02-00017"><label>1.</label><citation citation-type="journal"><person-group person-group-type="author"><name><surname>Shannon</surname><given-names>C.</given-names></name></person-group><article-title>A Mathematical Theory of Communication</article-title><source>Bell System Tech. J.</source><year>1948</year><volume>27</volume><fpage>379</fpage><lpage>423</lpage></citation></ref>
<ref id="b2-information-02-00017"><label>2.</label><citation citation-type="book"><person-group person-group-type="author"><name><surname>Cover</surname><given-names>T.</given-names></name><name><surname>Thomas</surname><given-names>J.</given-names></name></person-group><source>Elements of Information Theory</source><publisher-name>Wiley</publisher-name><publisher-loc>New York, NY, USA</publisher-loc><year>1991</year></citation></ref>
<ref id="b3-information-02-00017"><label>3.</label><citation citation-type="journal"><person-group person-group-type="author"><name><surname>Akaike</surname><given-names>H.</given-names></name></person-group><article-title>A new look at the statistical model identification</article-title><source>IEEE Trans. Automat. Contr.</source><year>1974</year><volume>AC-19</volume><fpage>716</fpage><lpage>23</lpage></citation></ref>
<ref id="b4-information-02-00017"><label>4.</label><citation citation-type="journal"><person-group person-group-type="author"><name><surname>Schwarz</surname><given-names>G.</given-names></name></person-group><article-title>Estimating the dimension of a model</article-title><source>Ann. Stat.</source><year>1978</year><volume>6</volume><fpage>461</fpage><lpage>464</lpage><pub-id pub-id-type="doi">10.1214/aos/1176344136</pub-id></citation></ref>
<ref id="b5-information-02-00017"><label>5.</label><citation citation-type="journal"><person-group person-group-type="author"><name><surname>de Finetti</surname><given-names>B.</given-names></name></person-group><article-title>La pre′vision: ses lois logiques, ses sources subjectives</article-title><source>Ann. Inst. Henri Poincare′</source><year>1937</year><volume>7</volume><fpage>168</fpage></citation></ref>
<ref id="b6-information-02-00017"><label>6.</label><citation citation-type="book"><person-group person-group-type="author"><name><surname>Vapnik</surname><given-names>V.N.</given-names></name></person-group><source>Statistical Learning Theory</source><publisher-name>Wiley</publisher-name><publisher-loc>New York, NY, USA</publisher-loc><year>1998</year></citation></ref>
<ref id="b7-information-02-00017"><label>7.</label><citation citation-type="journal"><person-group person-group-type="author"><name><surname>Efron</surname><given-names>B.</given-names></name></person-group><article-title>Nonparametric estimates of standard error: The jackknife, the bootstrap and other methods</article-title><source>Biometrika</source><year>1981</year><volume>68</volume><fpage>589</fpage><lpage>599</lpage><pub-id pub-id-type="doi">10.1093/biomet/68.3.589</pub-id></citation></ref>
<ref id="b8-information-02-00017"><label>8.</label><citation citation-type="journal"><person-group person-group-type="author"><name><surname>Breiman</surname><given-names>L.</given-names></name></person-group><article-title>The little bootstrap and other methods for dimensionality selection in regression: X-fixed prediction error</article-title><source>J. Am. Stats. Assoc.</source><year>1992</year><volume>87</volume><fpage>738</fpage><lpage>754</lpage><pub-id pub-id-type="doi">10.1080/01621459.1992.10475276</pub-id></citation></ref>
<ref id="b9-information-02-00017"><label>9.</label><citation citation-type="book"><person-group person-group-type="author"><name><surname>Geisser</surname><given-names>S.</given-names></name></person-group><source>Predictive Inference</source><publisher-name>Chapman and Hall</publisher-name><publisher-loc>New York, NY, USA</publisher-loc><year>1993</year></citation></ref>
<ref id="b10-information-02-00017"><label>10.</label><citation citation-type="book"><person-group person-group-type="author"><name><surname>McQuarrie</surname><given-names>A.</given-names></name><name><surname>Tsai</surname><given-names>C.L.</given-names></name></person-group><source>Regression and Time Series Model Selection</source><publisher-name>World Scientific</publisher-name><publisher-loc>Singapore</publisher-loc><year>1998</year></citation></ref>
<ref id="b11-information-02-00017"><label>11.</label><citation citation-type="journal"><person-group person-group-type="author"><name><surname>Shalizi</surname><given-names>C.R.</given-names></name></person-group><article-title>Dynamics of Bayesian Updating with Dependent Data and Misspecified Models</article-title><source>Electron. J. Statist.</source><year>2009</year><volume>3</volume><fpage>1039</fpage><lpage>1074</lpage><pub-id pub-id-type="doi">10.1214/09-EJS485</pub-id></citation></ref>
<ref id="b12-information-02-00017"><label>12.</label><citation citation-type="book"><person-group person-group-type="author"><name><surname>Gelman</surname><given-names>A.</given-names></name><name><surname>Carlin</surname><given-names>J.B.</given-names></name><name><surname>Stern</surname><given-names>H.S.</given-names></name><name><surname>Rubin</surname><given-names>D.B.</given-names></name></person-group><source>Bayesian Data Analysis</source><edition>2nd ed.</edition><publisher-name>Chapman and Hall/CRC</publisher-name><publisher-loc>Boca Raton, FL, USA</publisher-loc><year>2003</year></citation></ref>
<ref id="b13-information-02-00017"><label>13.</label><citation citation-type="confproc"><person-group person-group-type="author"><name><surname>Bonnlander</surname><given-names>B.</given-names></name><name><surname>Weigend</surname><given-names>A.</given-names></name></person-group><article-title>Selecting input variables using mutual information and nonparametric density estimation</article-title><conf-name>Proceedings of the 1994 International Symposium on Artificial Neural Networks (ISANN 94)</conf-name><conf-loc>Taiwan</conf-loc><year>1994</year><fpage>42</fpage><lpage>50</lpage></citation></ref>
<ref id="b14-information-02-00017"><label>14.</label><citation citation-type="journal"><person-group person-group-type="author"><name><surname>Kraskov</surname><given-names>A.</given-names></name><name><surname>Stogbauer</surname><given-names>H.</given-names></name><name><surname>Grassberger</surname><given-names>P.</given-names></name></person-group><article-title>Estimating mutual information</article-title><source>Phys. Rev. E</source><year>2004</year><volume>69</volume><fpage>066138</fpage><pub-id pub-id-type="doi">10.1103/PhysRevE.69.066138</pub-id></citation></ref>
<ref id="b15-information-02-00017"><label>15.</label><citation citation-type="journal"><person-group person-group-type="author"><name><surname>Kullback</surname><given-names>S.</given-names></name><name><surname>Leibler</surname><given-names>R.</given-names></name></person-group><article-title>On Information and Sufficiency</article-title><source>Ann. Math. Stat.</source><year>1951</year><volume>22</volume><fpage>79</fpage><lpage>86</lpage><pub-id pub-id-type="doi">10.1214/aoms/1177729694</pub-id></citation></ref>
<ref id="b16-information-02-00017"><label>16.</label><citation citation-type="journal"><person-group person-group-type="author"><name><surname>Sawa</surname><given-names>T.</given-names></name></person-group><article-title>Information Criteria for Discriminating among Alternative Regression Models</article-title><source>Econometrica</source><year>1978</year><volume>46</volume><fpage>1273</fpage><lpage>1291</lpage><pub-id pub-id-type="doi">10.2307/1913828</pub-id></citation></ref>
<ref id="b17-information-02-00017"><label>17.</label><citation citation-type="journal"><person-group person-group-type="author"><name><surname>Vuong</surname><given-names>Q.</given-names></name></person-group><article-title>Likelihood ratio tests for model selection and non-nested hypotheses</article-title><source>Econometrica</source><year>1989</year><volume>57</volume><fpage>307</fpage><lpage>333</lpage><pub-id pub-id-type="doi">10.2307/1912557</pub-id></citation></ref>
<ref id="b18-information-02-00017"><label>18.</label><citation citation-type="journal"><person-group person-group-type="author"><name><surname>Paninski</surname><given-names>L.</given-names></name></person-group><article-title>Asymptotic theory of information-theoretic experimental design</article-title><source>Neural Computat.</source><year>2005</year><volume>17</volume><fpage>1480</fpage><lpage>1507</lpage><pub-id pub-id-type="doi">10.1162/0899766053723032</pub-id></citation></ref>
<ref id="b19-information-02-00017"><label>19.</label><citation citation-type="book"><person-group person-group-type="author"><name><surname>Laplace</surname><given-names>P.S.</given-names></name></person-group><source>Essaiphilosophique sur lesprobabilités;</source><publisher-name>Courcier</publisher-name><publisher-loc>Paris, France</publisher-loc><year>1814</year></citation></ref></ref-list></back></article>
