You are currently browsing the monthly archive for noviembre 2014.

Hace poco preguntaban si cero a la potencia cero es uno. Recordé que también había formulado esta pregunta mucho tiempo atrás, en término informales. Expondré algunos argumentos que aclaren el panorama acerca de este tipo de preguntas, y veremos que no siempre habrá un acuerdo entre los campos de las matemáticas en los que se trabaje. Es más, la definición puede ser vista como algo casi caprichosa, casi como una navaja suiza, que se adapta naturalmente al contexto en la cual ha de habitar y que ha de ser de utilidad para lo que necesitemos.

En general, no existe una respuesta contundente a cuál debería ser el valor de {0^0}, por lo que es común dejarla como no definida.

Esencialmente, si consideramos la función de dos variables {x^y}, entonces no existe un límite como {(x,y)\rightarrow(0,0)} (con {x\ge 0}): si uno aproxima a lo largo de la línea {y=0}, entonces obtiene {\lim_{x\rightarrow0^+} x^0 = \lim_{x\rightarrow0^+} 1 = 1}; así, ¿deberíamos definir {0^0=1}? Bueno, el problema es que si uno aproxima a lo largo de la línea {x=0}, entonces obtiene {\lim_{y\rightarrow0^+} 0^y = \lim_{y\rightarrow0^+} 0 = 0}. ¿Deberíamos definir {0^0=0}?

Además, si uno aproxima usando otras curvas, obtendrá otras respuestas. Ya que {x^y = e^{y\ln(x)}}, si hacemos la aproximación a lo largo de la curva {y=\frac{1}{\ln(x)}}, entonces obtendremos un limite de {e}; si se aproxima a lo largo de la curva {y=\frac{\ln(7)}{\ln(x)}}, entonces se obtiene un límite de {7}. Así, entre otros. No existe una única respuesta buena desde el punto de vista analítico. De manera que, del cálculo y el álgebra, simplemente no podemos dar ninguna respuesta más que sólo declararlo indefinido.

Sin embargo, desde un punto de vista de la teoría de conjuntos, ¡sí existe una única respuesta a la pregunta acerca de cuál es valor {0^0}! En la teoría de conjuntos, {A^B} es el conjunto de todas las funciones de {B} a {A}; y cuando {A} y {B} hacen referencia al “tamaño” (cardinalidad), se define a “{A^B}” como el tamaño del conjunto de todas las funciones de {B} a {A}. En este contexto, {0} es el conjunto vacío, de manera que {0^0} es la colección de todas las funciones desde el conjunto vacío hacia el conjunto vacío. Resulta que existe una “única” función desde el conjunto vacío hacia el conjunto vacío: la función vacía. De modo que, el conjunto {0^0} tiene un sólo elemento y, por lo tanto, se define {0^0} igual a {1}. Así, si hablamos acerca de la “exponenciación cardinal”, entonces la única posible definición es {0^0=1}, quedando de esa manera.

Además, lo mismo ocurre en Matemáticas Discretas, donde el mayor interés está en “contar” cosas. Así, {n^m} representa el número de maneras en las cuales podemos hacer {m} selecciones de {n} posibilidades, cuando se permiten repeticiones y el orden importa. (Esto es lo mismo que una aplicación desde {\{1,2,\dotsc,m\}} hacia {\{1,2,\dotsc,n\}}, cuando se interpreta apropiadamente; así, es lo mismo que en la teoría de conjuntos.)

Entonces, ¿cuál debería ser el valor de {0^0}? Debería ser el número de maneras en las que uno no puede hacer selecciones cuando no tiene cosas de las cuales elegir. Hay una sola manera de hacer esto: ¡simplemente no hacer nada! Así, tenemos que {0^0} es igual a {1}, porque este es el número correcto de maneras en la que podemos las cosas que {0^0} representa. (Esto es opuesto a {0^1}, donde requerimos realizar {1} elección con nada de los que elegir; en este caso, “no” podemos hacerlo, de manera que {0^1=0}.)

Pero estos razonamientos no funcionan en realidad. Si {x\ne0}, entonces {0^x} significa “el número de manera de hacer {x} elecciones de {0} posibilidades”. Este número es {0}. Así que, para ningún número {q}, tenemos que {q\cdot0^x = 0 = 0^x}; por lo tanto no podemos decir que la ecuación {x^0\cdot0^x=0^x} sugiere que {0^0} “debería” ser {1}. El segundo argumento no funciona porque no podemos dividir por cero, que es lo que se obtiene con {0^x} cuando {x\ne0}. De manera que se viene abajo lo que esperábamos que signifique {n^m} y, en matemáticas discretas, cuando {n} y {m} son enteros no negativos, eso es un conteo: el número de maneras distintas en as cuales podemos hacer cierta cosa (descrita arriba), lo que nos lleva necesariamente a la definición que {0^0} es igual {1}, porque {1} “es” el número de manera de no seleccionar sin opciones.

Coda. Finalmente, es una asunto de definición y utilidad. En el cálculo y álgebra, no hay una definición razonable (lo más cercano es querer justificarlo a través del teorema del binomio o de las series de potencias, pero creo que es un tanto débil), y es mucho más útil dejarlo como no definido o indeterminado, ya que de otro modo tendríamos que considerar todo tipo de excepciones cuando tratemos con las leyes del límite. En teoría de conjunto, en matemáticas discretas, etc., la definición {0^0=1} es a la vez útil y natural, así que lo definimos de esa manera en ese contexto. Para otros contextos (cuando se trata exclusivamente con funciones analíticas donde los problemas con límites no surgen) podemos tener definiciones naturales y útiles a la vez.

Esencialmente, lo definimos (o fallamos al definirlo) en cualquiera de las maneras vistas que sea más útil y natural hacerlo para el contexto en el que se esté trabajando. Para las Matemáticas Discretas, no hay un contexto general en las que haya una manera útil y natural de qué debería ser {0^0}, por lo que lo definimos de esa manera.

Anuncios

Hace poco se demostró algo muy interesante a mi parecer: el límite inferior de la diferencia de dos primos consecutivos está acotado por un número fijo cuando los números primos, que pertenecen a la sucesión creciente de estas diferencias, tienden al infinito. Veremos algunas impresiones sobre el hecho que {\liminf_{n\rightarrow\infty} (p_{n+1} - p_n) < 7 \times 10^7}.

— 1. Brechas de primos —

Sean {p_1,p_2,\dotsc} los números primos en orden creciente. Sabemos que esta sucesión es infinito numerable. Una brecha de primos es un entero {p_{n+1} - p_n}. El Teorema de los números primos nos dice que {p_{n+1} - p_n} es aproximadamente {\log(p_n)} cuando {n} tiene al infinito.

Por otro lado, la conjetura de los primos gemelos asegura que

\displaystyle  \liminf_{n\rightarrow\infty} (p_{n+1} - p_n) = 2

i.e., que existen infinitos pares de primos gemelos para los cuales la brecha de primos es {2}. Una generalización de este hecho nos dice que, para cualquier entero positivo par, existen infinitas brechas de primos de ese tamaño. Esta conjetura no ha sido probada ni refutada. Además, estas conjeturas estan relacionadas con la conjetura de Hardy-Littlewood acerca de la distribución de las constelaciones de primos.

— 2. Estrategia —

La cuestión es si existe alguna constante {C} de modo que {p_{n+1} - p_n < C} infinitas veces. En primera instancia, sabemos que esto es cierto… cuando {C = 7 \times 10^7}.

Veamos la estrategia básica de la demostración. Un subconjunto {H = \{h_1,\dotsc,h_k\}} de números naturales distintos es admisible si, para todos los números primos {p}, el número de clases de residuos distintos módulo {p}, ocupado por estos números, es menor que {p}. (Por ejemplo, tomando {p=2}, vemos que las brechas entre los {h_j} deben ser par.) Si esta condición no fuera satisfecha, no sería posible que cada elemento en la colección {\{n+h_1,\dotsc,n+h_k\}} sea primo. Recíprocamente, la conjetura Hardy-Littlewood contiene el enunciado que para cada {H} admisible.existen infinitos {n} tal que cada elemento del conjunto {\{n+h_1,\dotsc,n+h_k\}} es primo.

Denotaremos con {\theta(n)} a la función {\log(n)} cuando {n} es primo y {0} en otro caso. Fijando un entero grande {x}, denotaremos por {n \sim x} el hecho {x \le n < 2x}. Supongamos que tenemos una función positiva de variable real {f} (que especificaremos luego) y consideremos las sumas

\displaystyle  S_1 = \sum_{n \sim x} f(n) \qquad\text{y}\qquad S_2 = \sum_{n \sim x} \left( \sum_{j=1}^k \theta(n+h_j) \right) f(n).

Así, si {S_2 > (\log 3x)S_1} para alguna función, entonces se cumple que {\sum_{j=1}^k \theta(n+h_j) > \log 3x} para algún {n \sim x} (y para cualquier {x} suficientemente grande), lo que quiere decir que al menos dos términos de la suma son distintos de cero, i.e., existen dos índices {i} y {j} tal que {n+h_i} y {n+h_j} son primos. De esta manera, podemos identificar las brechas acotadas de primos.

— 3. Algunos detalles —

El truco es hallar una función apropiada {f}. De un trabajo previo, se sugiere definir {f(n) = \lambda(n)^2}, de modo que

\displaystyle  \lambda(n) = \sum_{d|P(n),d<D} \mu(d) \left(\log\left(\frac{D}{d}\right)\right)^{k+\ell} \;\qquad\; P(n) = \prod_{j=1}^k (n+h_j)

donde {\ell>0} y {D} es la potencia de {x}.

Ahora, si vemos la suma {S_2 - (\log 3x)S_1} como una suma de un término principal más un término de error. Definiendo {D := x^\vartheta} con {\vartheta<1/4}, el término principal es negativo. Cuando {\vartheta = 1/4 + \omega}, el término principal cumple lo requerido, pero la cuestión que queda es cómo acotar el término de error.

— 4. El trabajo de Zhang —

Sea {\vartheta=1/4+\omega}, donde {\omega=1/1168} (que es “pequeño pero más grande que {\epsilon}”. Entonces definimos {\lambda(n)} usando la misma fórmula de antes, pero con una condición adicional en el índice {d}, que {d} divide al producto de os primos menores que {x^\omega}. En otras palabras, sólo sumamos sobre los {d} libres de cuadrados con factores primos pequeños.

El punto de esto es que cuando {d} no es muy pequeño (digamos {d>x^{1/3}}) entonces {d} tiene muchos factores. Si {d=p_1\dotsm,p_b} y {R<d}, existe algún {a} tal que {r=p_1\dotsm,p_a < R} y {p_1,\dotsm,p_{a+1} > R}. Esto da una factorización {d=rq} con {R/x^\omega < r < R}, el cual podemos usar para partir la suma sobre {d} en dos sumas (sobre {r} y sobre {q}), los cuales son manejados usando técnicas cuyos nombres aún no he podido reconocer.

— 5. Sobre el tamaño de la cota —

Uno se puede preguntar de dónde viene el número 70 millones. Esto está relacionado con el hecho que {k} esté en el conjunto admisible (en las notas {k=3.5\times 10^7}). El punto es que {k} necesita ser lo suficientemente grande para que el cambio producido por la condición extra, que {d} está libre de cuadrados con factores primos pequeños, es despreciable. Pero Zhang cree que sus técnicas aún no han sido optimizadas y que la menor cota será pronto posible.

— 6. Extra —

Sea {\pi(x;q,a)} el número de primos menores que {x} congruente a {a\mod q}, y sea {\pi(x)} el número de primos menores que {x}. Denotaremos por EH({\theta}) la afirmación que la siguiente desigualdad es cierta:

\displaystyle \sum_{1\leq q \leq x^{\theta}} \max_{(a,q)=1} | \pi(x;q,a) - \frac{\pi(x)}{\phi(q)} | \ll \frac{x}{\log^A(x)} (*)

for all large {x}.

El teorema de Bombieri-Vinogradov asegura que EH({\theta}) se cumple para {\theta <1/2}, y la conjetura Elliot-Halberstam asegura que EH({\theta}) se cumple para todo {\theta<1}.

A mediados del 2000, Goldston, Pintz e Yildirim probaron que si la conjetura de Elliott–Halberstam se cumple para cualquier nivel de la distribución {\theta>1/2}, entonces uno tiene infinitas brechas de primos acotadas (donde el tamaño de la brecha es una función de {\theta}, para {\theta>.971} obtuvieron una brecha de tamaño 16). Ya que el teorema de Bombieri-Vinogradov nos dice que EH({\theta}) se cumple para {\theta <1/2}, en algún sentido los argumentos de Goldston-Pintz-Yildirim apenas dan algunas brechas acotadas.

Por otro lado, en los años de 1980 Fouvry y Iwaniec fueron capaces de avanzar con el nivel de la distribución en el teorema de Bombieri-Vinogradov por encima de {1/2} a expensas de (1) remover los valores absolutos, (2) eliminar los máximos sobre las clases de residuos, y (3) ponderar los sumandos con una función “bien-factorizable’. Esto fue de manera subsecuente mejorada en una serie de artículos de Bombieri, Friedlander and Iwaniec. Para el argumento de Goldston-Pintz-Yildirim, las dos primeras restricciones no plantean un obstáculo significante; sin embargo, la inclusión de el peso bien-factorizable aparece para evitar que uno lo use con la maquinaria de Goldston-Pintz-Yildirim.

El argumento de Zhang da un tamaño de brecha cerca de 70 millones. Se sospecha que esta brecha puede decrecer rápidamente. En sus teoremas, Bombieri, Friedlander y Iwaniec dan un nivel de distribución cerca de {4/7}, donde Zhang parece estar trabajando con un nivel de distribución de la forma {1/2+\delta} para {\delta} en el orden de {1/1000}, de modo que existe una gran probabilidad de optimización. Como un punto de referencia, si uno tiene un nivel de distribución de {55/100 } ({< 4/7}) en la conjetura no modificada de Elliot-Halberstram (sin el peso bien-factorizable), el trabajo de Goldston, Pintz e Yildirim da infinitas brechas de tamaño menor que {2956}.

Una de las consecuencias “curiosas” de los conjunto ordenados es el principio del palomar. Tiempo atrás, vi dos ejercicios que me parecieron interesante al resolverlos. Veremos algunas perspectivas de este principio al momento de resolver los ejercicios; por ejemplo, la interpretación desde la teoría de cardinales.

Proposición 1 (Principio del palomar). Si {n} palomas se distribuyen en {m} palomares y {n > m}, entonces al menos habrá un palomar con más de una paloma.

Ejercicio 1. Dados los primeros {20} enteros positivos, demostrar que en todo subconjunto de {12} de ellos siempre hay dos números cuya suma da como resultado un elemento del propio subconjunto.

Ejercicio 2. En una reunión, al menos dos de los participantes conocen al mismo número de invitados.

— 1. Interpretación en la teoría de conjuntos —

Analizando el escenario de las palomas, vemos que si {A} es el conjunto de todas las palomas y {B} es el conjunto de los palomares, entonces es fácil apreciar que deben haber dos palomas “asignadas” a un mismo palomar. Esto, desde la perspectiva de la teoría de conjuntos, quiere decir que dicha “asignación” no puede ser inyectiva. De esta manera, podemos dar un enunciado equivalente a la Proposición 1.

Proposición 2. Sean {A} y {B} conjuntos finitos. Sean {\alpha} y {\beta} sus cardinales respectivos, i.e., {\alpha=card(A)} y {\beta=card(B)}, tales que {\alpha<\beta}. Entonces no existe ninguna función inyectiva de {A} a {B}.

En la vida, a diferencia de la matemáticas, las estructuras con las que contamos para razonar no son inmutables, en el sentido que si aplicamos razonamientos como la inducción, en las cuestiones de la vida, la cadena de deducción puede romperse con bastante rapidez. Por ejemplo, veremos que es peligroso aplicar la inducción matemática fuera del ambiente riguroso de las matemáticas.

Usaré el término “lógica clásica” para referirme esencialmente a la lógica de primer orden o a la lógica de predicados. En esta lógica clásica, podemos representar la información de un sistema como un conjunto de posibles estados entre los cuales puede encontrarse el sistema. Con cada nueva medida1 del sistema, algunos posibles estados podrían ser eliminados, otros nos guiarán hacia otro conjunto posterior de información mejorado. Un buen ejemplo es el Sudoku; con cada nueva celda, donde uno ubica un número, se obtienen nuevas restricciones sobre los posibles valores de las otras celdas. La demostración por contradicción puede ser visto como un ejemplo de este tipo de deducción.

Una adaptación moderna de la deducción clásica es la de Probabilidad bayesiana. En esta adaptación, cualquier información acerca del sistema no es sólo es representado como un conjunto de posibles estados, sino que adicionalmente por una distribución de probabilidad en el espacio de todos los estados; así, indicando las creencias actuales, que uno puede tener, acerca de la probabilidad de cada estado particular sea el estado real actual. Entonces, cada nueva medida del sistema actualiza la distribución de probabilidad previa a una distribución de probabilidad nueva, usando la fórmula de Bayes

\displaystyle   \mathbf P(A|B) = \frac{\mathbf P(B|A)\mathbf P(A)}{\mathbf B}. \ \ \ \ \ (1)

La Probabilidad bayesiana es muy usada en estadística, en machine learning (aprendizaje automático) y en muchas otras ciencias.

Para relacionar la probabilidad bayesiana con la deducción clásica, recordemos que cada distribución de probabilidad tiene un soporte, que (cuando se da el caso que el espacio de estados es discreto) es el conjunto de todos los estados que ocurren con una probabilidad distinta de cero. Cuando se actualiza bayesianamente el valor de una probabilidad en un espacio discreto, cualquier estado que sea inconsistente con la nueva información tendrá su probabilidad posterior igual a cero; así, será retirada del soporte. De esto, vemos que, mientras la distribución de probabilidad es evolucionada por la actualización bayesiana, el soporte evoluciona por la deducción lógica clásica. Así, podemos ver que la lógica clásica como un extensión (o proyección) cualitativa de la probabilidad bayesiana o, equivalentemente, podemos ver a la probabilidad bayesiana como un adaptación cuantitativa de la lógica clásica.

Alternativamente, podemos ver la probabilidad bayesiana con un caso especial de la lógica clásica, tomándola como una interpretación de la frecuencia. En este enfoque, podemos ver que el universo actual (o al menos el sistema actual) es sólo uno de los tantos universos posibles (o sistemas). En cada uno de estos universos, el sistema es uno de los posibles estados; donde, entonces, la probabilidad asignada a cada estado es la proporción de los universos posibles en los que el estado es alcanzado. Cada nueva medida elimina alguna fracción de los universos en un estado determinado, dependiendo de cuán probable o improbable era que ese estado hubiera, de hecho, producido esa medida.

Interpretemos, desde la perspectiva bayesiana, la frase “Cuando has eliminado todo lo que es posible, entonces lo que queda, por improbable que parezca, debe ser cierto”. La forma de la expresión es correcta; sin embargo, cuando llevamos este tipo de eliminación a una conclusión, a priori, improbable, el denominador de la fórmula de Bayes es muy pequeño; de modo que, la deducción es inestable si luego resulta que alguna de las posibilidades, de las que se piensa que se han eliminado completamente, fueran, de hecho, sólo incompletamente eliminadas. (Comparémoslo con “las respuestas extraordinarias requieren evidencias extraordinarias”, que puede ser interpretado como un punto de vista contrario.)

— 1. Implicación —

Compararemos la lógica clásica y la lógica bayesiana respecto al concepto de implicación.

En la lógica clásica, tenemos la noción de implicación material: dados los enunciados {A} y {B}, podemos forman el enunciado “{A} implica {B}”, que asegura que {B} es cierto siempre que {A} lo también sea.

En la probabilidad bayesiana, la noción análoga es la probabilidad condicional: dados los eventos {A} y {B}, podemos forman la probabilidad condicional {\mathbf P(B|A)}, que mide la probabilidad que {B} sea cierto dado que {A} lo es.

Si {\mathbf P(B|A) = 1}, entonces es esencialmente equivalente (sin considerar algún evento de probabilidad cero) a la afirmación {A} implica {B}. Por otro lado, si {\mathbf P(B|A) = 0}, esto es esencialmente equivalente a la afirmación que {A} implica no-{B}. Si {\mathbf P(B|A)} está estrictamente entre {0} y {1}, entonces {A} implica {B} algunas veces y no-{B} otras veces.

En la lógica clásica, si sabemos que {A} implica {B}, no podemos deducir que {B} implica {A}. Sin embargo, en la probabilidad bayesiana, si conocemos que el evento {A} aumenta la probabilidad que {B} sea cierto, entonces un observación de {B}, recíprocamente, aumentará la probabilidad a priori que {A} sea cierto, gracias a la fórmula de Bayes (1):

\displaystyle  \left(\mathbf P(B|A) > \mathbf P(B)\right) \implies \left(\mathbf P(A|B) > \mathbf P(A)\right).

Además, {\mathbf P(B|A) = 1} no implica {\mathbf P(A|B) = 1}, lo cual corresponde a la imposibilidad de asumir el recíproco en la lógica clásica.

Esto ayuda a explicar por qué asumir el recíproco es una actividad intuitiva para aquellos que no han sido expuestos a la lógica clásica. También resulta instructivo para comprender por qué esta disparidad entre los dos tipos de deducción no entran en conflicto con la relación que ya hemos mencionado que tienen. Una disparidad similar ocurre con el contrarrecíproco. En la lógica clásica, “{A} implica {B}” es equivalente a “no-{B} implica no-{A}”. Sin embargo, en la probabilidad bayesiana, las probabilidades condicionales {\mathbf P(A|B)} y {\mathbf P(\neg B|\neg A)} pueden ser totalmente diferentes.

— 2. Deducción y confirmación —

La deducción más elemental en el razonamiento clásico es el modus ponens: si sabemos que {A} es cierto y, además, sabemos que {A} implica {B}, entonces podemos deducir {B}. El análogo bayesiano de esto el la desigualdad

\displaystyle  \mathbf P(B) \ge \mathbf P(B \land A) = \mathbf P(B|A) \mathbf P(A).

En particular, si {\mathbf P(A)=1} y {\mathbf P(B|A)=1}, entonces {\mathbf P(B)=1}.

En general, se tiene la desigualdad

\displaystyle  \mathbf P(C|A) \ge \mathbf P(C|B) \mathbf P(B|A),

lo que generaliza el hecho clásico que dado “{A} implica {B}” y “{B} implica {C}”, se puede deducir “{A} implica {C}”.

En la lógica clásica, tenemos el principio de inducción matemática, lo que afirma que si {A_1} es cierto, y si {A_n} implica {A_{n+1}} para todo {n=1,2,\dotsc}, entonces {A_n} es cierto para todo {n}. El análogo bayesiano de esto es la desigualdad

\displaystyle  \mathbf P(A_n) \ge \mathbf P(A_n|A_{n-1}) \mathbf P(A_{n-1}|A_{n-2}) \dotsm \mathbf P(A_2|A_1) \mathbf P(A_1).

En particular, si todos la probabilidad de todos los factores del lado derecho son iguales a {1}, entonces el lado izquierdo es igual a {1} también. Pero observemos que si la probabilidad de los factores del lado derecho son estrictamente menores que {1}, entonces esta desigualdad se vuelve cada vez más débil a medida que {n} tiende al infinito. Por ejemplo, si sólo sabemos que {\mathbf P(A_{i+1}|A_i) \ge 0.99} para todo {i} (informalmente, estamos sólo al “{99\%} de confianza” en cada paso inductivo), entonces, incluso si tenemos plena confianza en el caso base {A_1} (i.e., {\mathbf P(A_1)=1}), podemos sólo obtener la cota

\displaystyle  \mathbf P(A_n) \ge (0.99)^n,

la cual converge exponencialmente a cero cuando {n\rightarrow\infty}. Así, vemos que la inducción únicamente es aplicado de manera segura si uno está trabajando en un modo “matemático” de razonamiento, en la cual se sabe que todas las implicaciones son ciertas2 con un {100\%} de confianza en lugar que simplemente {99\%} de confianza.

Vemos que la cadena de razonamiento inductivo puede llegar a ser cada vez más inestable en el mundo bayesiano. Sin embargo, se puede reforzar dicha cadena mediante el uso de confirmaciones independientes. Supongamos, por ejemplo, que deseamos calcular alguna cantidad física {X}. Podemos tomar una medida {X_1} de {X}; pero, supongamos que esta medida sólo es {90\%} confiable, en el sentido que {\mathbf P(X_1=a|X=a)\ge90\%} para cualquier valor {a} de la cantidad real {X}. Entonces, únicamente tenemos un {90\%} de confianza que {X} será igual a {X_1}: {\mathbf P(X=X_1)\ge0.9}.

Pero, supongamos que tomamos dos medidas independientes {X_1, X_2} de la misma cantidad {X}; así, si {X=a}, entonces cada uno los eventos {X_1=a} y {X_2=a} ocurren con una probabilidad independiente de al menos {0.9}. De este modo, vemos que para cualquier valor fijo {a} de {X}, la probabilidad que {X_1=X_2=X} es al menos {0.9\times0.9=0.81}, mientras la probabilidad que {X_1=X_2\ne X} es a lo más {0.1\times0.1=0.01}. Calculando las probabilidades condicionales, vemos que si {X_1} y {X_2} coinciden, entonces la confianza que este valor es igual a {X} se incrementa a {\frac{0.81}{0.82}\approx99\%}:

\displaystyle  \mathbf P(X=X_1=X_2|X_1=X_2) \ge \frac{81}{82}.

Así, vemos que uno puede utilizar ensayos independientes repetidos para impulsar una medición poco fiable en una medida cada vez más fiable. Esta idea básica es desarrollada más allá de la teoría de intervalos de confianza en la estadística. No obstante, notar que es fundamental que los ensayos distintos son realmente independientes; si hay un error sistemático que afecta a todos los ensayos de la misma manera, entonces no podemos conseguir el mismo aumento en la fiabilidad desde el incremento del número de ensayos3.

Sin embargo, teniendo muchas confirmaciones independientes una cadena deductiva de razonamiento

\displaystyle  A_1 \implies A_2 \implies\dotso\implies A_n

puede incrementar en mucho la confianza4 que la conclusión final {A_n} es, en efecto, correcta. Por ejemplo, si uno desea convencerse que la validez de una demostración matemática larga, la existencia de demostraciones independientes de los pasos clave del argumento ayudarán a elaborar la confianza. Incluso, las demostraciones heurísticas de tales pasos, mientras sean insuficiente para ser convincentes por sí mismas, pueden ser muy valiosas en la confirmación de una demostración más rigurosa, en el caso que uno de los pasos en esta última prueba resulte contener algunos defectos o lagunas de menor importancia.

Curiosamente, el método de demostración por contradicción, que luce muy similar a la de tomar los contrarrecíprocos, es mucho más estable en el sentido bayesiano. Clásicamente, este método empieza con la hipótesis “{A} implica {B}” y “no {B}”, y deduce “no {A}”. El análogo bayesiano de esto es la desigualdad

\displaystyle  \mathbf P(\neg A)\ge1-\frac{1-\mathbf P(\neg B)}{\mathbf P(B|A)}

que fácilmente verificada. En particular, si {\mathbf P(\neg B)} y {\mathbf P(B|A)} son iguales a {1}, entonces {\mathbf P(\neg A)} es también igual a {1}. Además, si {\mathbf P(\neg B)} y {\mathbf P(B|A)} son cercanas a {1}, entonces {\mathbf P(\neg A)} es cercana a {1}. Por ejemplo, si las probabilidades anteriores son al menos {90\%}, entonces la última probabilidad es al menos {88\%}.

De este modo, vemos que distintas reglas de razonamiento en la lógica clásica tienen distintas propiedades de estabilidad una vez introducimos cierta incertidumbre bayesiana: los contrarrecíprocos son inestables, las demostraciones por contradicción son estables, y las inducciones son sólo estables si la longitud de la inducción es corta, o si reforzamos la cadena de inducciones con confirmaciones independientes. Por otro lado, también vimos que el hecho de tomar los recíprocos, mientras es ilegal en la lógica clásica, tiene cierta justificación parcial en la probabilidad bayesiana. Así, la relación entre el razonamiento clásico y el razonamiento bayesiano es, de hecho, más bien sutil.

Observación 1. La probabilidad bayesiana puede ser generalizar aún más; por ejemplo, la mecánica cuántica (con la interpretación de Copenhagen) se puede ver como una generalización no conmutativa de la probabilidad bayesiana, aunque la conexión con la lógica clásica se pierde cuando se trata con objetos observables que no conmutan. Pero esta es otra historia…

 
 

  1. Entendamos medida como la evaluación que se la hace al sistema saber en cuál de los estados posibles se encuentra.
  2. De hecho, podemos permitir una cierta cantidad de error en cada implicación de una inducción, siempre que una restricción de la longitud de la inducción sea mucho menos que el recíproco de ese error.
  3. Una observación adicional: la confianza expresada por estos cálculos sólo es válido antes de que uno realmente tome las medidas {X_1,X_2}. Una vez se conocen los valores de estas medidas, la distribución de probabilidad a posteriori de {X} cambia según la fórmula de Bayes, de una manera que depende de la distribución a priori de {X}. En particular, si {X_1} y {X_2} son iguales a {a} para algún valor de {a} que uno cree que es muy improbable a la que {X} debería ser igual, entonces la probabilidad a posteriori de uno, tal que {X=a}, será más grande que la probabilidad a priori del mismo, pero seguiría siendo pequeño.
  4. El hecho que las cadenas de razonamiento pueden degradar la confianza final en la conclusión, mientras que las confirmaciones independientes pueden reforzar tal confianza, es algo análogo al hecho que las resistencias se suman cuando se colocan en serie, pero disminuyen cuando se colocan en paralelo.