Optimizando las consultas

2 comentarios

Este artículo está basado en el documento “Planos de Optimizaçao do Firebird” de Gladiston Santana.

Seguramente ya has leído o escuchado que el Firebird es rapidísimo para devolver el resultado de las consultas. ¿A qué se debe esa gran velocidad?

Quienes están acostumbrados a usar el modelo desktop (tablas .DBF, Paradox, Access) saben que el rendimiento está directamente ligado al rendimiento del Servidor de archivos, rendimiento de la red, tamaño de las tablas y el uso de índices correctos. Todo eso también es cierto en Firebird pero éste dispone de algo más, muy poderoso: el PLAN de optimización (“PLAN optimizer” en inglés).

¿Qué es el PLAN de optimización?

Es la lista del índice (o ningún índice) de cada tabla involucrada en una consulta que el Firebird utilizará para devolver el resultado de esa consulta (o sea, de ese SELECT)

La intención al usar un PLAN es que los resultados sean devueltos lo más rápidamente posible. Todas las consultas, absolutamente todas, tienen un PLAN de optimización, el cual puede ser puesto:

  • Automáticamente, por el Firebird
  • Manualmente, por el programador

¿Cómo el Firebird determina el PLAN?

Cuando el programador no le dice cual PLAN usar, el Firebird crea su propio PLAN usando para ello un módulo llamado “Query optimizer”, en castellano: optimizador de la consulta.

La tarea de este optimizador es analizar la consulta, evaluando: índices, combinaciones de índices, agrupamientos como sort, union, (inner, left, outer) join, y muchas cosas más y después de haber analizado todo eso evaluar el costo de esa consulta.

Este “costo” es una nota, una calificación, que indica si la optimización de la consulta es ventajosa o desventajosa. Si el optimizador encuentra que la nota es desventajosa entonces puede realizar una optimización distinta en la consulta o decidir no usar optimización. A este último caso se le llama NATURAL PLAN (o sea, un PLAN que no usa índices).

¿En qué casos se usaría el NATURAL PLAN?

Podría parecer extraña la idea de no utilizar optimización pero en algunos casos la mejor alternativa es no usar optimización ya que si se debe re-evaluar una operación o seleccionar un índice, eso a veces toma más tiempo que recorrer la tabla entera. Y en este caso no vale la pena usar el optimizador.

Este es el caso de tablas pequeñas o de SELECTs que no precisan de índices para realizar una búsqueda. También puede ocurrir que una tabla tenga una columna indexada pero que el optimizador elija no utilizar ese índice.

Ejemplo 1:

Tenemos una tabla llamada PERSONAS, la cual tiene una columna llamada PER_APELLD (apellidos de las personas) y un índice llamado IDX_PERSONAS sobre esa columna:

CREATE INDEX IDX_PERSONAS ON PERSONAS(PER_APELLD);

Ahora escribimos esta consulta, porque deseamos obtener los datos de todas las personas cuyo apellido sea ‘TORRES’ o cuyo apellido sea ‘CABRAL’:

SELECT
   *
FROM
   PERSONAS
WHERE
   PER_APELLD LIKE '%TORRES%CABRAL%'

El Firebird usará el índice IDX_PERSONAS, ¿verdad?. No, falso. No usará el índice IDX_PERSONAS como podemos ver al revisar el PLAN utilizado.

PLAN1

(haciendo clic en la imagen la verás más grande)

¿Por qué no usó el índice? Porque hay un “%” en el inicio del LIKE y eso implica que debe recorrer la tabla completa para mostrar el resultado de la consulta. Y no tiene sentido usar un índice en ese caso, ya que tomará más tiempo y no se obtendrá algún beneficio.

Inclusive, llamar al optimizador ya sería un desperdicio porque ningún índice ayudaría a acelerar esta consulta, entonces ni siquiera llamará al optimizador.

Para este caso de consultas que no pueden ser optimizadas es que existe el PLAN NATURAL.

Ejemplo 2:

Usando la misma tabla del ejemplo 1 escribimos esta consulta:

SELECT
   *
FROM
   PERSONAS
WHERE
   PER_APELLD LIKE 'TORRES%CABRAL%'

Fíjate que se borró el “%” que estaba al principio del LIKE. Volvemos a revisar cual es el PLAN utilizado y nos muestra:

PLAN2

(haciendo clic en la imagen la verás más grande)

 Y ahora sí está usando el índice porque es adecuado usarlo.

El SELECT extendido

Los SELECTs que escribimos en los dos ejemplos anteriores no son los que realmente utilizará el Firebird cuando los ejecutemos. ¿Por qué no? porque el Firebird automáticamente le agrega la cláusula PLAN a todos los SELECTs que no tengan dicha cláusula escrita.

Así, para el primer ejemplo, el SELECT que usará el Firebird es:

SELECT
   *
FROM
   PERSONAS
WHERE
   PER_APELLD LIKE '%TORRES%CABRAL%'
PLAN
   (PERSONAS NATURAL)

Fíjate que le agrega las palabras PLAN y luego el PLAN utilizado (en este caso PERSONAS NATURAL). PERSONAS es el nombre de la tabla y NATURAL le indica que no debe usar un índice.

Para el segundo ejemplo el SELECT que usará el Firebird es:

SELECT
   *
FROM
   PERSONAS
WHERE
   PER_APELLD LIKE 'TORRES%CABRAL%'
PLAN
   (PERSONAS INDEX (IDX_PERSONAS))

Fíjate que ahora sí usa el índice IDX_PERSONAS

Preparando un PLAN

El proceso de someter una consulta al optimizador para que éste la analice y determine el mejor PLAN se llama “Prepare query” (preparar la consulta). Los programadores experimentados siempre escriben un PLAN en el SELECT porque eso ahorra tiempo y mejora el rendimiento ya que el Firebird usa el PLAN especificado y no debe llamar al optimizador para determinar cual PLAN utilizará.

En EMS SQL Manager, haríamos clic en la opción “Prepare query” para preparar la consulta  y en “Explain query” para ver cual será el PLAN que utilizará el Firebird, como se ve a continuación:

PLAN3

(haciendo clic en la imagen la verás más grande)

 Entonces, como ya se le indica cual PLAN debe usar el Firebird no pierde tiempo analizando la consulta y determinando ese PLAN.

Advertencia

Si al escribir un SELECT especificamos el PLAN a utilizar y ese PLAN es el más adecuado entonces el SELECT se ejecutará más rápido, sin embargo hay que tener en cuenta algo muy importante: a veces, el PLAN que hoy es excelente puede dejar de serlo conforme las condiciones de la Base de Datos van cambiando, por ejemplo si se le van agregando nuevos índices, fórmulas, e inclusive el mismo aumento en la cantidad de datos. Esto implica que periódicamente debemos verificar el rendimiento de nuestros SELECTs para detectar aquellos planes que ya no son los más adecuados.

Un PLAN inadecuado no es solamente malo para esa consulta en particular, es malo para toda la Base de Datos porque consultas concurrentes podrían sumarse al problema y tornar al Servidor en una verdadera tortuga de tres patas.

Tiempos de ejecución

Veamos ahora cuanto tarda ejecutar cada uno de los SELECTs de los ejemplos anteriores:

PLAN4

(haciendo clic en la imagen la verás más grande)

 La tabla PERSONAS tiene 3.516.272 registros y ejecutar el primer SELECT (el que tiene PLAN NATURAL y por lo tanto no usa índices) tardó 14,093 segundos.

PLAN5

(haciendo clic en la imagen la verás más grande)

 Al ejecutar el segundo SELECT (que usa al índice IDX_PERSONAS) el tiempo se redujo considerablemente, ahora es de solamente 1,282 segundos. ¿Y qué ocurrirá si quitamos el apellido CABRAL de la consulta y dejamos solamente al apellido TORRES? ¿El tiempo mejorará o empeorará? veamos:

PLAN6

(haciendo clic en la imagen la verás más grande)

 Esto puede parecer muy extraño, ya que ahora tenemos muchos más datos (ya que hay más apellidos ‘TORRES’ que ‘TORRES CABRAL’) sin embargo el tiempo de la consulta disminuyó.

¿Por qué?

Porque el Firebird recupera los datos por páginas y en una página generalmente caben muchos registros. Esos registros ya están en la memoria y por lo tanto mostrarlos es muy rápido.

Veamos ahora lo que sucede al volver a ejecutar el último SELECT

PLAN7

(haciendo clic en la imagen la verás más grande)

 El tiempo se redujo aún más, ahora ni siquiera tardó 1 segundo en finalizar.

¿Por qué?

Porque esa consulta ya estaba en la memoria, en el caché del Firebird, y por lo tanto no tuvo que ser leída desde el disco duro, con lo cual se aceleró aún más obtener los resultados pedidos.

Lo bueno de esto es que si el mismo usuario ejecuta el mismo SELECT o si algún otro usuario lo hace, como los datos ya están en la memoria mostrarlos es súper rápido.

Estos tiempos de ejecución fueron obtenidos con una tabla que tiene 3.516.272 registros y una computadora que ya tiene varios años: Pentium IV con 4 Gbytes de RAM y de un solo núcleo. En cualquier computadora nueva los tiempos serán mucho menores.

En Firebird si multiplicamos por 10 la cantidad de registros de una tabla no aumenta por 10 el tiempo de consulta. Si la tabla PERSONAS tuviera 35.162.720 registros el tiempo de ejecución de la consulta aún sería de alrededor de 1 segundo.

En cambio, en las tablas desktop (.DBF, Paradox, Access) si multiplicamos por 10 la cantidad de registros el tiempo de consulta se multiplica por 10, por 12, por 15.

Conclusión:

Entender lo que es el PLAN y aprender a usar el PLAN correcto hará que tus consultas sean rapidísimas. Sin embargo debes recordar que a veces el PLAN va decayendo en su rendimiento cuando le vas agregando índices o fórmulas a las tablas o mismo por el aumento de los datos así que es buena práctica revisar los planes periódicamente para asegurar que siguen siendo los más adecuados.

La gran diferencia en el rendimiento que se observa cuando se usa Firebird en comparación con tablas .DBF, Paradox y Access es que Firebird, al igual que Oracle, Sybase, MSSQL, usa un PLAN. Pero mientras que por usar esos SGBD debes pagar mucho dinero, por usar Firebird no pagas, es gratis.

Artículos relacionados:

Usando un PLAN

Algo más sobre PLAN

El índice del blog Firebird21

Transacciones optimistas y transacciones pesimistas

2 comentarios

Este artículo está basado en el documento: “Transaçoes em Firebird” de Eugénio Reis.

Conceptos generales

  1. Normalmente las únicas operaciones que pueden bloquear un registro son las operaciones de escritura. En Firebird existe una excepción a esa regla: un SELECT crea un bloqueo conocido como shared lock (bloqueo compartido) el cual permite las lecturas y las escrituras al registro pero impide que la tabla sea borrada con un DROP. Una tabla puede ser borrada con el comando DROP solamente si ninguno de sus registros tiene un shared block, o sea si nadie está haciendo un SELECT a dicha tabla.
  2. La gran diferencia entre el tratamiento optimista y el tratamiento pesimista es la cantidad de tiempo durante el cual el registro queda bloqueado. En el optimista el tiempo es menor.
  3. Las alteraciones son registradas en un área aparte llamada log de transacciones
  4. El bloqueo pesimista tiende a saturar el uso del log porque fuerza a la Base de Datos a mantener las transacciones abiertas por mucho tiempo
  5. En el Firebird no se pueden tener lecturas sucias. Una lectura es sucia cuando la transacción T2 puede ver las alteraciones que está realizando la transacción T1 antes de que la transacción T1 realice el COMMIT correspondiente.
  6. Un registro jamás puede ser alterado al mismo tiempo por dos transacciones concurrentes

¿Es mejor el tratamiento optimista o el tratamiento pesimista?

En general, es preferible el optimista porque el pesimista tiende a arruinar el rendimiento de la Base de Datos, a crear situaciones de deadlock (bloqueos mortales) con más frecuencia, a generar filas de espera por la disponibilidad de los datos y a aumentar la competición entre los usuarios.

Cuanto mayor sea la cantidad de usuarios mayores serán los trastornos que el tratamiento pesimista causará porque a mayor cantidad de bloqueos, mayor cantidad de problemas.

Estudio de caso 1: control del stock

Si un cliente llega a la caja con el producto en la mano, no debe ser validado para saber si hay existencia de ese producto. La prueba de que hay está en las manos del cliente. El cajero inclusive debe ser capaz de realizar la venta aunque la Base de Datos esté off-line y más adelante cuando esté on-line se corre un proceso de actualización.

Es también común hacer un recuento físico del stock cada seis meses o un año para evitar que las discrepancias inevitables causadas por factores como hurto, pérdida, deterioro, etc., se vuelvan muy grandes.

Si un cliente llama por teléfono para preguntar si hay disponibilidad de un producto porque quiere comprarlo el vendedor no debería bloquear el registro sino hacer una reserva del mismo. Y aunque en la computadora él vea que hay existencia de ese producto podría ser falso porque hubo hurto.

Estudio de caso 2: cambio en la ficha del cliente

En general, sería muy raro que los datos de un cliente deban ser modificados por dos usuarios al mismo tiempo. Un caso posible es cuando el cliente utiliza una tarjeta de crédito y el usuario legítimo y quien le robó los datos de su tarjeta de crédito están realizando compras y pagando con esa tarjeta. Para estos casos una medida de seguridad es que entre un pago con tarjeta y el siguiente transcurra cierto tiempo. Claro que quien pagó primero será el aceptado.

Estudio de caso 3: reservas

Ocurre cuando el cliente desea reservar algo: un asiento en un avión o en un ómnibus, un auto que desea alquilar, una habitación en un hotel, una mesa en un restaurante, una entrada para un concierto, un producto específico, etc.

El producto específico puede ser el más ilustrativo porque posiblemente no existan dos productos exactamente iguales (“quiero comprar el cuadro titulado ‘Las princesas’ del pintor Joaquín Velázquez”. En este caso es evidente que el vendedor tiene un solo cuadro para vender)

El problema es que si se está vendiendo por Internet dos o más personas pueden estar queriendo comprar el mismo cuadro al mismo tiempo y quieren colocarlo en su “carrito de compras”.

Si la primera persona lo colocó en su carrito de compras ¿la segunda persona no puede hacerlo? Supongamos que se le da a la primera persona un tiempo prudencial para decidirse, ya que podría desistir de la compra, de 20 minutos. ¿Le hacemos esperar 20 minutos a la segunda persona para avisarle que el producto está disponible? Lo más probable es que la segunda persona desista y si la primera persona también lo hizo, entonces perdimos la venta.

Un tratamiento pesimista nos haría perder ventas (como en el ejemplo anterior) y también afectaría muy mal nuestra reputación como vendedores.

Estudio de caso 4: numeración secuencial

En los tres casos anteriores lo correcto es el tratamiento optimista, ahora veremos un caso en que el adecuado es el tratamiento pesimista.

Las situaciones en las cuales se necesitan números secuenciales que no pueden tener huecos entre ellos requieren de un tratamiento pesimista.

Ejemplos típicos son: numeración de las matrículas de los alumnos, números de patentes de los vehículos, Facturas de venta, numeración serial de productos, etc.

Esto se puede hacer de dos maneras:

  1. Recorriendo la tabla hasta encontrar el último número utilizado
  2. Teniendo una tabla auxiliar

Lo correcto, por velocidad y confiabilidad, es usar el método 2.

Entonces, nuestra tabla auxiliar tendría tres columnas:

  • AUX_IDENTI, identificador de la fila (generalmente SMALLINT es más que suficiente)
  • AUX_CODIGO, código de la secuencia (por ejemplo: “MAT”, “CUO”, “ASU”, “001-001-“)
  • AUX_ULTNUM, último número usado (normalmente SMALLINT aunque a veces se necesitaría INTEGER)

En líneas generales el algoritmo es el siguiente:

  1. Se abre la transacción
  2. UPDATE AUXILIAR SET AUX_ULTNUM = AUX_ULTNUM + 1 WHERE AUX_CODIGO = ‘MAT’. Este UPDATE bloqueará el registro inmediatamente y cualquier otro programa en la red que desee bloquear este mismo registro tendrá que esperar
  3. lnUltimoNumero = (SELECT AUX_ULTNUM FROM AUXILIAR WHERE AUX_CODIGO = ‘MAT’). Este SELECT es necesario para conocer cual es el valor actual de la columna AUX_ULTNUM
  4. Se graba en el registro y la columna adecuados de la tabla principal el valor de lnUltimoNumero
  5. Se realiza el COMMIT. Si tiene éxito, el valor de lnUltimoNumero estará grabado en la tabla auxiliar y en la tabla principal. Si falla, se hace un ROLLBACK y quedarán con sus valores anteriores. En ambos casos la transacción fue cerrada y todos los bloqueos liberados. Los demás procesos pueden generar nuevos números secuenciales a partir de ese momento.

Lo más crítico en este proceso es el tiempo durante el cual el registro de la tabla auxiliar queda bloqueado. Recuerda que si ese tiempo se prolonga causará trastornos a los demás usuarios. Los objetivos del tratamiento pesimista son conseguir seguridad y consistencia, pero debe conseguirse en transacciones lo más cortas posibles para no afectar negativamente a los demás usuarios.

Un punto importante cuando el tratamiento es pesimista es el orden en el cual se ejecutan el UPDATE y el SELECT. Deben realizarse siempre en el mismo orden: o siempre primero el UPDATE o siempre primero el SELECT. No importa cual de ellos se realice primero sino que en todos los procesos se mantenga el mismo orden. De no hacerlo así podrían ocurrir muchos deadlocks (bloqueos mortales) en la Base de Datos.

Conclusión:

En general deberíamos usar transacciones con tratamiento optimista porque eso reduce el tiempo en el cual los registros quedan bloqueados. Si un registro está bloqueado le causa trastornos a los demás usuarios que también quieren modificarlo. El tratamiento pesimista debe usarse cuando no hay alternativa, por ejemplo cuando se requieren números secuenciales que no tengan huecos (números faltantes) entre ellos. Y en ambos casos lo correcto es que las transacciones sean lo más cortas posibles.

Artículos relacionados:

Modos de bloqueo de las transacciones

Bloqueos mortales

Algo más sobre transacciones optimistas y transacciones pesimistas

¿Por qué en Firebird es preferible que las transacciones sean optimistas?

El índice del blog Firebird21