You are currently browsing the category archive for the ‘math.LM’ category.

¿Quién dice que la TV basura no educa? Oí un comentario del conductor de un programa de chismes de la farándula local: “[…] es tan verdadero como las pestañas de Sheyla.” Uno puede creer que no hay nada educativo, pero si uno analiza la frase en su forma proposicional, descubre la austera y fría acción de la lógica. (Tampoco nos tranquilicemos, 🙂 las coincidencias existen.) (Notar el sarcasmo desde el principio del párrafo.)

   La implicación material “Si {A}, entonces {B}” (o “{A} implica {B}”) se puede enfocar como la afirmación “{B} es al menos tan verdadero como {A}” (o equivalentemente, “{A} es al menos tan cierto como {B}”). Esta perspectiva hecha luz a muchos hechos acerca de la implicación material:

  1. Una falsedad implica cualquier cosa (el principio de explosión). En efecto, cualquier enunciado {B} es al menos tan cierto como una falsedad. Por el mismo razonamiento, si la hipótesis de una implicación falla, esto no revela nada acerca de la conclusión.
  2. Cualquier cosa implica una verdad. En particular, si la conclusión de una implicación es cierta, esto no revela nada acerca de la hipótesis.
  3. Demostración por contradicción. Si {A} es a lo más tan cierto como una falsedad, entonces es falso.
  4. Tomando el recíproco. Si {B} es al menos tan cierto como {A}, entonces {A} es al menos tan falso como {B}.
  5. “Si, y sólo si,” es lo mismo que una equivalencia lógica.{A} si, y sólo si, {B}” quiere decir que {A} y {B} son igualmente ciertas (o igualmente falsas, dependiendo de tu actitud filosófica).
  6. Eliminación de la disyunción. Dado “Si {A}, entonces {C}” y “Si {B}, entonces {C}”, se puede deducir “Si {(A} o {B)}, entonces {C}”, ya que si {C} es al menos tan cierto como {A} y al menos tan cierto como {B}, entonces es al menos tan cierto como {A} o {B} inclusive.
  7. Principio de inducción matemática. Si {P(0)} es verdadero y, cada {P(n+1)} es al menos tan cierto como {P(n)}, entonces todos los {P(n)} son ciertos. (No obstante, uno debe tener en cuenta que si sólo se está seguro al {99\%} en cada implicación “{P(n)} implica {P(n+1)}”, entonces la cadena de deducciones puede romperse rápidamente. Por eso, es peligroso aplicar la inducción matemática fuera del ambiente riguroso de la matemática. Ver esta publicación para más detalle.)
  8. La implicación material no es causal. La implicación material “Si {A}, entonces {B}” es un enunciado exclusivo de los valores de verdad de {A} y {B}, y puede ser cierto incluso si no hay una relación de causalidad entre {A} y {B}. (v.g., “Si {1+1=2}, entonces la conjetura de Riemann es verdadera.”)

   Atención con las afirmaciones de los conductores de espectáculos… 🙂

Anuncios

En la vida, a diferencia de la matemáticas, las estructuras con las que contamos para razonar no son inmutables, en el sentido que si aplicamos razonamientos como la inducción, en las cuestiones de la vida, la cadena de deducción puede romperse con bastante rapidez. Por ejemplo, veremos que es peligroso aplicar la inducción matemática fuera del ambiente riguroso de las matemáticas.

Usaré el término “lógica clásica” para referirme esencialmente a la lógica de primer orden o a la lógica de predicados. En esta lógica clásica, podemos representar la información de un sistema como un conjunto de posibles estados entre los cuales puede encontrarse el sistema. Con cada nueva medida1 del sistema, algunos posibles estados podrían ser eliminados, otros nos guiarán hacia otro conjunto posterior de información mejorado. Un buen ejemplo es el Sudoku; con cada nueva celda, donde uno ubica un número, se obtienen nuevas restricciones sobre los posibles valores de las otras celdas. La demostración por contradicción puede ser visto como un ejemplo de este tipo de deducción.

Una adaptación moderna de la deducción clásica es la de Probabilidad bayesiana. En esta adaptación, cualquier información acerca del sistema no es sólo es representado como un conjunto de posibles estados, sino que adicionalmente por una distribución de probabilidad en el espacio de todos los estados; así, indicando las creencias actuales, que uno puede tener, acerca de la probabilidad de cada estado particular sea el estado real actual. Entonces, cada nueva medida del sistema actualiza la distribución de probabilidad previa a una distribución de probabilidad nueva, usando la fórmula de Bayes

\displaystyle   \mathbf P(A|B) = \frac{\mathbf P(B|A)\mathbf P(A)}{\mathbf B}. \ \ \ \ \ (1)

La Probabilidad bayesiana es muy usada en estadística, en machine learning (aprendizaje automático) y en muchas otras ciencias.

Para relacionar la probabilidad bayesiana con la deducción clásica, recordemos que cada distribución de probabilidad tiene un soporte, que (cuando se da el caso que el espacio de estados es discreto) es el conjunto de todos los estados que ocurren con una probabilidad distinta de cero. Cuando se actualiza bayesianamente el valor de una probabilidad en un espacio discreto, cualquier estado que sea inconsistente con la nueva información tendrá su probabilidad posterior igual a cero; así, será retirada del soporte. De esto, vemos que, mientras la distribución de probabilidad es evolucionada por la actualización bayesiana, el soporte evoluciona por la deducción lógica clásica. Así, podemos ver que la lógica clásica como un extensión (o proyección) cualitativa de la probabilidad bayesiana o, equivalentemente, podemos ver a la probabilidad bayesiana como un adaptación cuantitativa de la lógica clásica.

Alternativamente, podemos ver la probabilidad bayesiana con un caso especial de la lógica clásica, tomándola como una interpretación de la frecuencia. En este enfoque, podemos ver que el universo actual (o al menos el sistema actual) es sólo uno de los tantos universos posibles (o sistemas). En cada uno de estos universos, el sistema es uno de los posibles estados; donde, entonces, la probabilidad asignada a cada estado es la proporción de los universos posibles en los que el estado es alcanzado. Cada nueva medida elimina alguna fracción de los universos en un estado determinado, dependiendo de cuán probable o improbable era que ese estado hubiera, de hecho, producido esa medida.

Interpretemos, desde la perspectiva bayesiana, la frase “Cuando has eliminado todo lo que es posible, entonces lo que queda, por improbable que parezca, debe ser cierto”. La forma de la expresión es correcta; sin embargo, cuando llevamos este tipo de eliminación a una conclusión, a priori, improbable, el denominador de la fórmula de Bayes es muy pequeño; de modo que, la deducción es inestable si luego resulta que alguna de las posibilidades, de las que se piensa que se han eliminado completamente, fueran, de hecho, sólo incompletamente eliminadas. (Comparémoslo con “las respuestas extraordinarias requieren evidencias extraordinarias”, que puede ser interpretado como un punto de vista contrario.)

— 1. Implicación —

Compararemos la lógica clásica y la lógica bayesiana respecto al concepto de implicación.

En la lógica clásica, tenemos la noción de implicación material: dados los enunciados {A} y {B}, podemos forman el enunciado “{A} implica {B}”, que asegura que {B} es cierto siempre que {A} lo también sea.

En la probabilidad bayesiana, la noción análoga es la probabilidad condicional: dados los eventos {A} y {B}, podemos forman la probabilidad condicional {\mathbf P(B|A)}, que mide la probabilidad que {B} sea cierto dado que {A} lo es.

Si {\mathbf P(B|A) = 1}, entonces es esencialmente equivalente (sin considerar algún evento de probabilidad cero) a la afirmación {A} implica {B}. Por otro lado, si {\mathbf P(B|A) = 0}, esto es esencialmente equivalente a la afirmación que {A} implica no-{B}. Si {\mathbf P(B|A)} está estrictamente entre {0} y {1}, entonces {A} implica {B} algunas veces y no-{B} otras veces.

En la lógica clásica, si sabemos que {A} implica {B}, no podemos deducir que {B} implica {A}. Sin embargo, en la probabilidad bayesiana, si conocemos que el evento {A} aumenta la probabilidad que {B} sea cierto, entonces un observación de {B}, recíprocamente, aumentará la probabilidad a priori que {A} sea cierto, gracias a la fórmula de Bayes (1):

\displaystyle  \left(\mathbf P(B|A) > \mathbf P(B)\right) \implies \left(\mathbf P(A|B) > \mathbf P(A)\right).

Además, {\mathbf P(B|A) = 1} no implica {\mathbf P(A|B) = 1}, lo cual corresponde a la imposibilidad de asumir el recíproco en la lógica clásica.

Esto ayuda a explicar por qué asumir el recíproco es una actividad intuitiva para aquellos que no han sido expuestos a la lógica clásica. También resulta instructivo para comprender por qué esta disparidad entre los dos tipos de deducción no entran en conflicto con la relación que ya hemos mencionado que tienen. Una disparidad similar ocurre con el contrarrecíproco. En la lógica clásica, “{A} implica {B}” es equivalente a “no-{B} implica no-{A}”. Sin embargo, en la probabilidad bayesiana, las probabilidades condicionales {\mathbf P(A|B)} y {\mathbf P(\neg B|\neg A)} pueden ser totalmente diferentes.

— 2. Deducción y confirmación —

La deducción más elemental en el razonamiento clásico es el modus ponens: si sabemos que {A} es cierto y, además, sabemos que {A} implica {B}, entonces podemos deducir {B}. El análogo bayesiano de esto el la desigualdad

\displaystyle  \mathbf P(B) \ge \mathbf P(B \land A) = \mathbf P(B|A) \mathbf P(A).

En particular, si {\mathbf P(A)=1} y {\mathbf P(B|A)=1}, entonces {\mathbf P(B)=1}.

En general, se tiene la desigualdad

\displaystyle  \mathbf P(C|A) \ge \mathbf P(C|B) \mathbf P(B|A),

lo que generaliza el hecho clásico que dado “{A} implica {B}” y “{B} implica {C}”, se puede deducir “{A} implica {C}”.

En la lógica clásica, tenemos el principio de inducción matemática, lo que afirma que si {A_1} es cierto, y si {A_n} implica {A_{n+1}} para todo {n=1,2,\dotsc}, entonces {A_n} es cierto para todo {n}. El análogo bayesiano de esto es la desigualdad

\displaystyle  \mathbf P(A_n) \ge \mathbf P(A_n|A_{n-1}) \mathbf P(A_{n-1}|A_{n-2}) \dotsm \mathbf P(A_2|A_1) \mathbf P(A_1).

En particular, si todos la probabilidad de todos los factores del lado derecho son iguales a {1}, entonces el lado izquierdo es igual a {1} también. Pero observemos que si la probabilidad de los factores del lado derecho son estrictamente menores que {1}, entonces esta desigualdad se vuelve cada vez más débil a medida que {n} tiende al infinito. Por ejemplo, si sólo sabemos que {\mathbf P(A_{i+1}|A_i) \ge 0.99} para todo {i} (informalmente, estamos sólo al “{99\%} de confianza” en cada paso inductivo), entonces, incluso si tenemos plena confianza en el caso base {A_1} (i.e., {\mathbf P(A_1)=1}), podemos sólo obtener la cota

\displaystyle  \mathbf P(A_n) \ge (0.99)^n,

la cual converge exponencialmente a cero cuando {n\rightarrow\infty}. Así, vemos que la inducción únicamente es aplicado de manera segura si uno está trabajando en un modo “matemático” de razonamiento, en la cual se sabe que todas las implicaciones son ciertas2 con un {100\%} de confianza en lugar que simplemente {99\%} de confianza.

Vemos que la cadena de razonamiento inductivo puede llegar a ser cada vez más inestable en el mundo bayesiano. Sin embargo, se puede reforzar dicha cadena mediante el uso de confirmaciones independientes. Supongamos, por ejemplo, que deseamos calcular alguna cantidad física {X}. Podemos tomar una medida {X_1} de {X}; pero, supongamos que esta medida sólo es {90\%} confiable, en el sentido que {\mathbf P(X_1=a|X=a)\ge90\%} para cualquier valor {a} de la cantidad real {X}. Entonces, únicamente tenemos un {90\%} de confianza que {X} será igual a {X_1}: {\mathbf P(X=X_1)\ge0.9}.

Pero, supongamos que tomamos dos medidas independientes {X_1, X_2} de la misma cantidad {X}; así, si {X=a}, entonces cada uno los eventos {X_1=a} y {X_2=a} ocurren con una probabilidad independiente de al menos {0.9}. De este modo, vemos que para cualquier valor fijo {a} de {X}, la probabilidad que {X_1=X_2=X} es al menos {0.9\times0.9=0.81}, mientras la probabilidad que {X_1=X_2\ne X} es a lo más {0.1\times0.1=0.01}. Calculando las probabilidades condicionales, vemos que si {X_1} y {X_2} coinciden, entonces la confianza que este valor es igual a {X} se incrementa a {\frac{0.81}{0.82}\approx99\%}:

\displaystyle  \mathbf P(X=X_1=X_2|X_1=X_2) \ge \frac{81}{82}.

Así, vemos que uno puede utilizar ensayos independientes repetidos para impulsar una medición poco fiable en una medida cada vez más fiable. Esta idea básica es desarrollada más allá de la teoría de intervalos de confianza en la estadística. No obstante, notar que es fundamental que los ensayos distintos son realmente independientes; si hay un error sistemático que afecta a todos los ensayos de la misma manera, entonces no podemos conseguir el mismo aumento en la fiabilidad desde el incremento del número de ensayos3.

Sin embargo, teniendo muchas confirmaciones independientes una cadena deductiva de razonamiento

\displaystyle  A_1 \implies A_2 \implies\dotso\implies A_n

puede incrementar en mucho la confianza4 que la conclusión final {A_n} es, en efecto, correcta. Por ejemplo, si uno desea convencerse que la validez de una demostración matemática larga, la existencia de demostraciones independientes de los pasos clave del argumento ayudarán a elaborar la confianza. Incluso, las demostraciones heurísticas de tales pasos, mientras sean insuficiente para ser convincentes por sí mismas, pueden ser muy valiosas en la confirmación de una demostración más rigurosa, en el caso que uno de los pasos en esta última prueba resulte contener algunos defectos o lagunas de menor importancia.

Curiosamente, el método de demostración por contradicción, que luce muy similar a la de tomar los contrarrecíprocos, es mucho más estable en el sentido bayesiano. Clásicamente, este método empieza con la hipótesis “{A} implica {B}” y “no {B}”, y deduce “no {A}”. El análogo bayesiano de esto es la desigualdad

\displaystyle  \mathbf P(\neg A)\ge1-\frac{1-\mathbf P(\neg B)}{\mathbf P(B|A)}

que fácilmente verificada. En particular, si {\mathbf P(\neg B)} y {\mathbf P(B|A)} son iguales a {1}, entonces {\mathbf P(\neg A)} es también igual a {1}. Además, si {\mathbf P(\neg B)} y {\mathbf P(B|A)} son cercanas a {1}, entonces {\mathbf P(\neg A)} es cercana a {1}. Por ejemplo, si las probabilidades anteriores son al menos {90\%}, entonces la última probabilidad es al menos {88\%}.

De este modo, vemos que distintas reglas de razonamiento en la lógica clásica tienen distintas propiedades de estabilidad una vez introducimos cierta incertidumbre bayesiana: los contrarrecíprocos son inestables, las demostraciones por contradicción son estables, y las inducciones son sólo estables si la longitud de la inducción es corta, o si reforzamos la cadena de inducciones con confirmaciones independientes. Por otro lado, también vimos que el hecho de tomar los recíprocos, mientras es ilegal en la lógica clásica, tiene cierta justificación parcial en la probabilidad bayesiana. Así, la relación entre el razonamiento clásico y el razonamiento bayesiano es, de hecho, más bien sutil.

Observación 1. La probabilidad bayesiana puede ser generalizar aún más; por ejemplo, la mecánica cuántica (con la interpretación de Copenhagen) se puede ver como una generalización no conmutativa de la probabilidad bayesiana, aunque la conexión con la lógica clásica se pierde cuando se trata con objetos observables que no conmutan. Pero esta es otra historia…

 
 

  1. Entendamos medida como la evaluación que se la hace al sistema saber en cuál de los estados posibles se encuentra.
  2. De hecho, podemos permitir una cierta cantidad de error en cada implicación de una inducción, siempre que una restricción de la longitud de la inducción sea mucho menos que el recíproco de ese error.
  3. Una observación adicional: la confianza expresada por estos cálculos sólo es válido antes de que uno realmente tome las medidas {X_1,X_2}. Una vez se conocen los valores de estas medidas, la distribución de probabilidad a posteriori de {X} cambia según la fórmula de Bayes, de una manera que depende de la distribución a priori de {X}. En particular, si {X_1} y {X_2} son iguales a {a} para algún valor de {a} que uno cree que es muy improbable a la que {X} debería ser igual, entonces la probabilidad a posteriori de uno, tal que {X=a}, será más grande que la probabilidad a priori del mismo, pero seguiría siendo pequeño.
  4. El hecho que las cadenas de razonamiento pueden degradar la confianza final en la conclusión, mientras que las confirmaciones independientes pueden reforzar tal confianza, es algo análogo al hecho que las resistencias se suman cuando se colocan en serie, pero disminuyen cuando se colocan en paralelo.