Skip to content

Corpus fallido a exitoso

Severidad: Importante

Audiencia: operadores y desarrolladores. Aplica al entender como Smart Mibizum decide que queries analizar.

El problema

¿Que queries manda el aprendizaje IA al modelo para que aprenda sinonimos? Si pasamos "todas las busquedas sin resultados" del dia, generamos ruido masivo: queries azarosas, busquedas progresivas (a, ac, ace, aceit...), recetas pegadas, intentos de SKU sin sentido. El modelo malgasta tokens en ruido y propone sinonimos pobres.

La regla

TIP

La mejor senal de typo aprendible es el patron intento fallido a exitoso en la misma sesion:

Un cliente busca X (0 resultados), reescribe a Y (con resultados) dentro de N minutos en la misma sesion.

El aprendizaje IA usa este corpus como entrada principal. Es mucho mas fiable que mandar las "0-results a ciegas" porque ya hay confirmacion humana de que queria decir el cliente: el mismo se corrigio.

Por que

  • Senal confirmada por el cliente: si reescribio de caguacate a aguacate y encontro lo que buscaba, sabemos que el intento original era un typo del segundo, no una busqueda exotica abandonada.
  • Ratio senal/ruido alto: en una tienda real, sobre ~66.000 busquedas en 22 dias salen ~30 pares fallido-exitoso por dia. Es el 0.3% del log de 0-results, pero el 80% de los typos aprendibles.
  • Anonimizacion trivial: el modelo solo necesita el par (failed, rescue). Nunca se le envia session ID, IP, customer ID ni timestamp. Privacidad por diseno.
  • Coste controlado: pocos pares = pocos tokens = coste anual estimado bajo (1-15 USD/ano por tienda dependiendo del modelo IA elegido).

Ejemplos del corpus real

Estos son pares detectados en una tienda real un dia cualquiera:

FailedRescueConfidenceRazon (Smart)
bisulfiiitbisulfiit0.93Letra repetida (typo de teclado)
sodiumpcasodium pca0.88Falta espacio; producto INCI
tensoactiustensioactius0.82Falta una letra
bamboobambu0.70Cambio de idioma ingles a castellano
mant ca dekaritemanteca dekarite0.78Espacio extra y falta letra
previotiprebioti0.75Letras intercambiadas (typo)

Para merchants

El aprendizaje IA observa como se corrigen los clientes a si mismos en tu tienda. Cuando alguien busca una palabra, no encuentra nada, y en la misma sesion reescribe a otra palabra con resultados, Mibizum lo anota como un typo candidato. Cada noche revisa esos candidatos y los aprende automaticamente (en modo auto) o te los propone para aprobar (en modo hybrid).

Cuanto mas trafico tenga tu tienda, mas rapido aprende. Con pocas sesiones al dia, el aprendizaje sera conservador (espera a tener varias confirmaciones del mismo typo antes de aplicarlo). Esto se configura desde el panel en Ajustes > Smart > Sesiones minimas.

Anti-patrones

DANGER

No pases todas las 0-results al modelo IA. El coste explota, el ratio senal/ruido cae. El modelo descarta el 90% como ruido, gastando tokens en analizar lo que ya sabias que era basura.

DANGER

No uses solo similitud textual (Levenshtein) sin ventana de sesion. Falsos positivos: aceite y aceituna son similares pero no es typo. La senal "el cliente se corrigio a si mismo" filtra esto.

DANGER

No uses ventana temporal muy ancha (1h). Captura ruido (cliente cierra sesion, vuelve mas tarde con otra intencion). 5 minutos cubre el 95% de las correcciones reales.

Documentacion oficial de Mibizum.