Leer automáticamente los datos de una factura recibida ha sido siempre uno de esos problemas que todo el mundo daba por resuelto, pero que casi nadie tenía bien resuelto. El reconocimiento óptico de caracteres (OCR) existe desde hace décadas, los grandes ERPs lo ofrecen como módulo opcional, y hay empresas especializadas vendiendo soluciones a despachos y departamentos contables. Y aun así, casi todos los procesos de contabilización de facturas siguen pasando, en algún punto, por las manos de una persona introduciendo datos en un sistema.
Algo ha cambiado en los últimos dos años. No es que el problema se haya resuelto del todo, pero ha pasado de “casi imposible” a “casi resuelto”. Y conviene entender por qué.
Cómo era con OCR clásico
El OCR de toda la vida convierte una imagen de un documento en texto. Le pasas una foto de una factura, y te devuelve el texto que aparece en ella. El problema empieza justo después: una factura no es texto plano, es un documento con estructura. Hay emisor en una esquina, fecha en otra, una tabla de conceptos en medio, totales abajo, IVA desglosado en algún lado. Una persona lo entiende porque tiene contexto. El OCR clásico, no. Para él, todo es texto en posiciones distintas, y convertir eso en datos estructurados (emisor, fecha, base, IVA, total) requería definir plantillas o reglas por cada formato.
Eso funcionaba si todas las facturas tenían el mismo diseño, y muy mal si recibías de docenas de proveedores distintos. Cada proveedor nuevo, plantilla nueva. Cada rediseño, plantilla rota. El coste aparente era la licencia; el coste real, en horas de despacho, era el mantenimiento constante de plantillas, las facturas que volvían a la entrada manual, y el límite implícito de automatizar solo a los proveedores que repetían lo suficiente como para justificar la configuración.
Qué ha cambiado con los modelos multimodales
Los modelos de IA generativa multimodal (capaces de procesar texto e imágenes a la vez) abordan el problema de forma estructuralmente distinta. No leen posiciones, comprenden documentos.
Cuando un modelo multimodal recibe una factura, no aplica reglas para extraer texto de zonas concretas. Hace algo más parecido a lo que haría una persona la primera vez que ve una factura: la mira entera, identifica qué tipo de documento es, reconoce qué información hay en ella, y devuelve los datos estructurados que se le piden. No necesita haber visto antes facturas de ese proveedor. No necesita plantilla. Si el proveedor rediseña su factura el mes que viene, sigue funcionando.
La diferencia conceptual es importante: el OCR clásico era mecánico (extracción posición → texto), la IA generativa es semántica (comprensión del documento). En Billexia uso para esto uno de los modelos de Anthropic. La elección concreta importa menos que el cambio de paradigma: hay varios modelos multimodales que serían igualmente capaces. Lo que ha cambiado es la categoría de tecnología disponible, no un producto específico.
El modelo es solo una parte del sistema: validación, normalización y tratamiento fiscal importan tanto como la extracción.
Qué procesa hoy Billexia
Cualquier formato habitual de factura recibida: PDF, DOCX, XLSX, imagen escaneada, foto de móvil. De cada uno extrae los campos completos: fecha, NIF y nombre del emisor, número de factura, moneda, base imponible, porcentaje e importe de IVA (o IGIC o IPSI, si corresponde), total.
Y, lo más importante para el día a día español, identifica y procesa correctamente las particularidades fiscales habituales:
-
Retención de IRPF en facturas de autónomos en actividad profesional. Billexia extrae el porcentaje y el importe de retención, y calcula correctamente el importe neto a pagar (base + IVA/IGIC/IPSI - retención), que es lo que efectivamente abonas, no el “total” en sentido contable.
-
Recargo de equivalencia en facturas dirigidas a comerciantes minoristas acogidos a ese régimen. Billexia identifica el régimen automáticamente y extrae porcentaje e importe del recargo, sumándolo correctamente al total.
Divisas: una mención aparte
Las facturas en otras monedas merecen atención específica, porque cualquier pyme o autónomo digital tiene hoy facturas de proveedores extranjeros: servicios cloud, software SaaS, marketplaces internacionales.
Cuando Billexia procesa una factura en divisa, además de extraer los datos en la moneda original, aplica el tipo de cambio oficial del Banco Central Europeo a la fecha de la factura y devuelve el importe convertido a euros, con la base y el total en EUR listos para la contabilidad española. La conversión queda trazable y referida al tipo de cambio oficial del BCE. El BCE publica diariamente unas treinta divisas de referencia, que cubren la práctica totalidad de los casos del día a día.
Lo que sigue siendo difícil
La IA generativa multimodal ha movido la frontera de lo posible, pero no la ha eliminado. Conviene ser honesto sobre dónde siguen los límites.
Las facturas con calidad de imagen muy degradada (escaneos a baja resolución, fotos muy borrosas, documentos parcialmente ilegibles incluso para una persona) siguen dando resultados peores. La diferencia respecto al OCR clásico es que un modelo mal calibrado puede devolver un dato incorrecto. Es un riesgo que requiere validación humana en los casos límite.
Las divisas no publicadas por el BCE quedan fuera del flujo de conversión automática. Las lenguas con alfabetos no latinos (mandarín, árabe, ruso, japonés) tienen tasas de error mayores que las europeas. Las facturas manuscritas son terreno más difícil que las impresas.
Por qué importa esto para tu despacho o tu negocio
El cambio tecnológico no es teórico. Significa que una tarea que ha consumido horas de despacho desde siempre ha pasado a poder resolverse en segundos por documento, sin configuración previa por proveedor.
Para un despacho profesional, eso libera el tiempo que hoy se va en introducir facturas a mano y permite dedicarlo a lo que aporta valor al cliente: revisión, planificación fiscal, consultoría. Para una pyme o un autónomo, significa que la entrada manual de facturas deja de ser un peaje obligatorio que se paga en horas mensuales.
No significa que cualquier herramienta basada en IA funcione bien. Significa que la tecnología base está disponible y que las herramientas que la usan bien resuelven hoy un problema que no estaba resuelto hasta hace muy poco.
Si quieres probar Billexia
Puedes hacer una primera prueba sin registrarte en billexia.com: hasta 3 facturas en 24 horas para ver qué resultados da con tus documentos reales.
Si te convence y quieres seguir usándolo, hay plazas como tester beta con cuota ampliada. Escríbeme a cfresco@billexia.com diciendo a qué te dedicas y cuántas facturas recibes al mes, y te doy acceso a la beta ampliada.
Voy incorporando pocos usuarios cada vez para poder atenderlos bien y trabajar el producto con feedback real.
Quién escribe esto
Carlos Frescó. Cuarenta y nueve años trabajando en informática, los primeros desde Buenos Aires en 1977, los últimos veintinueve en banca española. Jubilado del puesto de responsable de explotación IT en una entidad bancaria, fundador de Billexia. Veo desde dentro el problema que aquí cuento y la solución que estoy construyendo.