Corpus fallido a exitoso
Severidad: Importante
Audiencia: operadores y desarrolladores. Aplica al entender como Smart Mibizum decide que queries analizar.
El problema
¿Que queries manda el aprendizaje IA al modelo para que aprenda sinonimos? Si pasamos "todas las busquedas sin resultados" del dia, generamos ruido masivo: queries azarosas, busquedas progresivas (a, ac, ace, aceit...), recetas pegadas, intentos de SKU sin sentido. El modelo malgasta tokens en ruido y propone sinonimos pobres.
La regla
TIP
La mejor senal de typo aprendible es el patron intento fallido a exitoso en la misma sesion:
Un cliente busca
X(0 resultados), reescribe aY(con resultados) dentro de N minutos en la misma sesion.
El aprendizaje IA usa este corpus como entrada principal. Es mucho mas fiable que mandar las "0-results a ciegas" porque ya hay confirmacion humana de que queria decir el cliente: el mismo se corrigio.
Por que
- Senal confirmada por el cliente: si reescribio de
caguacateaaguacatey encontro lo que buscaba, sabemos que el intento original era un typo del segundo, no una busqueda exotica abandonada. - Ratio senal/ruido alto: en una tienda real, sobre ~66.000 busquedas en 22 dias salen ~30 pares fallido-exitoso por dia. Es el 0.3% del log de 0-results, pero el 80% de los typos aprendibles.
- Anonimizacion trivial: el modelo solo necesita el par
(failed, rescue). Nunca se le envia session ID, IP, customer ID ni timestamp. Privacidad por diseno. - Coste controlado: pocos pares = pocos tokens = coste anual estimado bajo (1-15 USD/ano por tienda dependiendo del modelo IA elegido).
Ejemplos del corpus real
Estos son pares detectados en una tienda real un dia cualquiera:
| Failed | Rescue | Confidence | Razon (Smart) |
|---|---|---|---|
bisulfiiit | bisulfiit | 0.93 | Letra repetida (typo de teclado) |
sodiumpca | sodium pca | 0.88 | Falta espacio; producto INCI |
tensoactius | tensioactius | 0.82 | Falta una letra |
bamboo | bambu | 0.70 | Cambio de idioma ingles a castellano |
mant ca dekarite | manteca dekarite | 0.78 | Espacio extra y falta letra |
previoti | prebioti | 0.75 | Letras intercambiadas (typo) |
Para merchants
El aprendizaje IA observa como se corrigen los clientes a si mismos en tu tienda. Cuando alguien busca una palabra, no encuentra nada, y en la misma sesion reescribe a otra palabra con resultados, Mibizum lo anota como un typo candidato. Cada noche revisa esos candidatos y los aprende automaticamente (en modo auto) o te los propone para aprobar (en modo hybrid).
Cuanto mas trafico tenga tu tienda, mas rapido aprende. Con pocas sesiones al dia, el aprendizaje sera conservador (espera a tener varias confirmaciones del mismo typo antes de aplicarlo). Esto se configura desde el panel en Ajustes > Smart > Sesiones minimas.
Anti-patrones
DANGER
No pases todas las 0-results al modelo IA. El coste explota, el ratio senal/ruido cae. El modelo descarta el 90% como ruido, gastando tokens en analizar lo que ya sabias que era basura.
DANGER
No uses solo similitud textual (Levenshtein) sin ventana de sesion. Falsos positivos: aceite y aceituna son similares pero no es typo. La senal "el cliente se corrigio a si mismo" filtra esto.
DANGER
No uses ventana temporal muy ancha (1h). Captura ruido (cliente cierra sesion, vuelve mas tarde con otra intencion). 5 minutos cubre el 95% de las correcciones reales.