- Las personas ciegas y con baja visión son especialmente vulnerables porque las señales de phishing suelen ser visuales y los lectores de pantalla no son herramientas de seguridad.
- Aplicaciones como Be My Eyes, Be My AI o Google Lens amplían la autonomía al describir entornos, webs y documentos, pero presentan riesgos de alucinaciones de la IA y de privacidad.
- La mitigación automatizada de amenazas (NGFW, SIEM, EDR, ZTNA) ofrece monitoreo 24/7 y respuesta rápida, reduciendo puntos ciegos y apoyando la navegación segura.
- Combinar software de seguridad, gestores de contraseñas y buenas prácticas con asistentes visuales es clave para que los usuarios con discapacidad visual naveguen de forma más segura e independiente.
Imaginar que dependes casi al 100% del sonido para moverte por Internet ayuda a entender lo complicada que puede ser la ciberseguridad para una persona ciega o con baja visión. La mayoría de señales de alerta frente a estafas y webs falsas son visuales: pequeños cambios en la interfaz, advertencias en la barra del navegador, iconos alterados o detalles de diseño que un lector de pantalla no siempre transmite con claridad.
En los últimos años han aparecido herramientas muy potentes como Be My Eyes, Be My AI o Google Lens, que combinan visión por computador, modelos generativos y asistentes humanos para “poner ojos” donde no los hay. A la vez, las empresas están desplegando mitigación automatizada de amenazas, firewalls de nueva generación, SIEM, NDR y arquitecturas zero trust para parar ataques en cuestión de segundos. El reto ahora es conectar ambos mundos: cómo aprovechar esta tecnología para que las personas con discapacidad visual naveguen de forma más segura, sin perder de vista los riesgos de privacidad, las alucinaciones de la IA y la creciente complejidad del entorno digital.
Por qué las ciberamenazas golpean más fuerte a usuarios ciegos y con baja visión
La historia de Tim Utzig se ha convertido casi en un caso de estudio: en 2023, este estudiante ciego de Baltimore perdió 1.000 dólares al comprar un portátil en una supuesta “venta solidaria” publicitada en X por un periodista deportivo al que seguía desde hacía tiempo. La cuenta había sido comprometida, la biografía y la lista de “Siguiendo” habían cambiado y el perfil aparecía marcado como “restringido temporalmente”. Todo eran señales puramente visuales que su lector de pantalla nunca anunció.
Los lectores de pantalla y los magnificadores son herramientas de accesibilidad, no de seguridad. Están diseñados para leer, ampliar y estructurar contenido, no para detectar fraudes. Esto deja a la comunidad de personas ciegas y con baja visión en una posición especialmente delicada: incluso para quienes ven, distinguir una web falsa de una legítima es cada vez más difícil; sin apoyo visual fiable, la tarea se convierte directamente en una carrera de obstáculos.
Conviene diferenciar bien los dos grandes grupos. Las personas con baja visión suelen apoyarse en lupas de pantalla, fuentes extragrandes y alto contraste. Para ellas, los trucos clásicos del phishing son especialmente peligrosos: dominios con pequeñas faltas (typosquatting) como “rnicrosoft.com”, interfaces casi calcadas al original o textos en tamaños minúsculos que obligan a forzar la vista y facilitan pasar cosas por alto.
Las personas ciegas, por su parte, navegan principalmente mediante lectores de pantalla y gestos táctiles. Paradójicamente, esto les puede ayudar a detectar algunos engaños: al escuchar la URL completa, es más fácil notar que algo chirría. Pero el problema aparece cuando la página, sea legítima o maliciosa, no es del todo compatible con el lector: avisos que no se anuncian, áreas sin etiquetar, mensajes visuales clave que se pierden… justo lo que le ocurrió a Tim, cuya herramienta nunca leyó las advertencias críticas.
En este contexto, hacen falta capas adicionales de protección: software de seguridad que analice enlaces, imágenes, adjuntos y patrones de lenguaje sospechoso, y que pueda complementar lo que el lector de pantalla o la lupa no ve. Ahí entran en juego tanto las apps de asistencia visual con IA como las soluciones clásicas de ciberseguridad empresarial.
Asistentes visuales: de las tareas domésticas a la detección de phishing
Be My Eyes se ha consolidado como una de las aplicaciones estrella de apoyo visual, con alrededor de 900.000 usuarios y más de nueve millones de voluntarios repartidos por el mundo. Funciona en Windows, Android e iOS y permite iniciar videollamadas en directo con personas videntes que ayudan con tareas cotidianas: leer el botón correcto de la lavadora, ajustar el termostato del horno o localizar un objeto encima de la mesa.
En la práctica, el flujo es sencillo: la persona usuaria abre la app, inicia la llamada y la cámara trasera del móvil se convierte en sus ojos. El primer voluntario disponible que hable su idioma responde, observa la escena y describe o guía según sea necesario. El servicio ofrece soporte en unos 32 idiomas y ha demostrado ser especialmente útil para quienes están empezando a perder visión y aún se están adaptando.
El salto cualitativo llegó en 2023 con Be My AI, un asistente virtual basado en GPT‑4 con capacidad de visión. En lugar de iniciar una videollamada con un voluntario, el usuario toma una foto o comparte una captura de pantalla; la imagen se envía a la IA, que genera una descripción textual detallada y la lee en voz alta. A continuación, se abre un chat para hacer preguntas de seguimiento sobre la propia imagen.
Esto abre una puerta muy interesante: ¿puede una IA de este tipo ayudar de verdad a detectar webs de phishing o correos fraudulentos? Para comprobarlo, distintos equipos de seguridad han probado a subir capturas de pantallas falsas de inicio de sesión en redes sociales que imitaban, por ejemplo, el formulario de Facebook, pero con dominios alterados en la barra de direcciones.
En dichas pruebas, la IA de Be My AI fue capaz de describir con precisión el contenido de la página y, al preguntar “¿puedo fiarme de esta web?”, señalar que el dominio no coincidía con el oficial. Además, recomendó cerrar la página, escribir manualmente la URL legítima en el navegador o utilizar la app oficial para acceder a la cuenta. Resultado similar se obtuvo con correos de phishing: en algunos casos, la IA detectó directamente el intento de estafa en la primera descripción y advirtió de no abrir adjuntos ni pulsar en enlaces.
Más allá del phishing, este tipo de IA se está usando como “copiloto” para navegar tiendas online, apps bancarias y servicios digitales poco accesibles. Puede leer descripciones de productos cuando el HTML no está bien etiquetado, desentrañar términos y condiciones en letra minúscula al contratar una suscripción o abrir una cuenta, o extraer datos clave de tarjetas técnicas y manuales de instrucciones que, de otro modo, serían un dolor de cabeza.
Riesgos de confiar demasiado en la IA: alucinaciones, privacidad y prompts maliciosos
Que Be My AI y soluciones similares hayan dado buen resultado en pruebas concretas no significa que sean infalibles. El talón de Aquiles de cualquier modelo generativo son las alucinaciones: textos inventados, detalles importantes que se omiten o descripciones distorsionadas de lo que aparece en pantalla, sobre todo cuando la imagen tiene mala calidad, mucho ruido o elementos difíciles de interpretar.
En el terreno de la ciberseguridad, una falsa sensación de seguridad puede ser muy peligrosa: si la IA “ve” una web fraudulenta como legítima y el usuario se fía ciegamente, el resultado puede ser idéntico al de Tim, pero con el agravante de que la persona cree estar protegida por una tecnología avanzada. A esto se suma que los modelos de lenguaje son vulnerables a las llamadas inyecciones de prompt: mensajes camuflados en la propia interfaz o en el contenido de la página diseñados para manipular el comportamiento del sistema de IA.
Otro punto delicado es la gestión de datos. Según la política de privacidad de Be My Eyes, las videollamadas con voluntarios pueden grabarse y almacenarse para mejorar el servicio, garantizar la seguridad y cumplir las condiciones de uso. Las imágenes y mensajes que se envían a Be My AI pasan por los servidores de OpenAI en Estados Unidos y se usan únicamente para generar la respuesta solicitada, no para entrenar modelos, y se cifran tanto en tránsito como en reposo.
Aun así, la información puede permanecer cierto tiempo: las grabaciones de videollamadas pueden conservarse de forma indefinida salvo que se solicite su borrado, que suele ejecutarse en menos de 30 días; los datos de las interacciones con Be My AI se guardan hasta 30 días, salvo que se borren manualmente desde la app; y, si se cierra la cuenta, algunos datos personales pueden mantenerse hasta 90 días por motivos legales u operativos.
Además, está el factor humano. Al final de cada respuesta, Be My AI suele sugerir “hablar con un voluntario” si aún hay dudas. Para temas cotidianos es una maravilla, pero cuando se trata de verificar una web bancaria, un correo sospechoso o un formulario con datos sensibles, lo más prudente es evitar el contacto con desconocidos: no hay manera de saber el nivel técnico ni la intención real de quien está al otro lado, y la cámara puede mostrar accidentalmente contraseñas, direcciones o documentos.
Por todo ello, la recomendación principal es clara: usar la IA como primera capa de revisión, nunca como única fuente de verdad. Siempre tiene que haber detrás un software de seguridad especializado (antivirus, protección contra phishing, filtros en el navegador) y buenos hábitos de higiene digital.
Buenas prácticas para usar Be My Eyes, Be My AI y asistentes humanos con seguridad
Si tienes discapacidad visual o apoyas a alguien que la tiene, conviene interiorizar unas cuantas reglas sencillas al utilizar estos servicios. La primera es obvia pero se olvida con facilidad: trata a Be My AI como una opinión informada, no como un oráculo infalible. Deja la “decisión final” en manos de herramientas de seguridad y de procedimientos seguros como escribir tú mismo la URL o utilizar apps oficiales.
Cuando algo te parezca raro —un correo alarmista, un mensaje pidiendo datos, una web con aspecto ligeramente distinto— no pulses en enlaces ni abras adjuntos, por muy convincente que parezca el remitente. En lugar de eso, abre el navegador, teclea a mano la dirección que conoces (por ejemplo, la del banco o la red social) o lanza directamente la app de siempre y comprueba desde ahí si hay algún aviso real.
En las videollamadas con voluntarios, asume que la persona que te ayuda ve exactamente lo que ve tu cámara, incluidos reflejos. Procura no mostrar tarjetas bancarias, códigos de seguridad, contraseñas ni documentos oficiales abiertos. Evita también que se vea tu rostro o detalles muy identificables de tu casa si no es estrictamente necesario. Lo ideal es encuadrar solo el elemento que necesitas que te describan.
Es muy recomendable usar la función específica de la app para crear un grupo de confianza con familiares y amistades. De este modo, las llamadas más delicadas irán dirigidas a personas que conoces, no a voluntarios aleatorios. Para documentos sensibles (informes médicos, contratos, justificantes de identidad…) mejor recurrir a apps que procesan la información localmente en el dispositivo, como Envision, Seeing AI o Lookout, que reducen los riesgos al no subir contenido a la nube.
Por último, acostúmbrate a limpiar periódicamente los historiales de chats y fotos en la app. Si no los borras, es posible que se conserven hasta 30 días, algo innecesario si ya no vas a volver a esa información. Esta pequeña rutina añade una capa extra de privacidad con un esfuerzo mínimo.
Google Lens y otros asistentes visuales: potencial y límites para la seguridad
Otra herramienta que ha cambiado el día a día de muchas personas con discapacidad visual es Google Lens, el buscador visual de Google. A través de la cámara del móvil, es capaz de identificar objetos, leer textos, traducir carteles, reconocer productos, plantas, animales e incluso obras de arte. Integrado en Android, en Google Fotos y en la app de Google (también en iOS, aunque con algunas limitaciones), se ha convertido en una especie de navaja suiza para entender el entorno.
En el ámbito doméstico, Google Lens permite leer etiquetas de latas o envases con letra minúscula, fechas de caducidad en fondos de bajo contraste o instrucciones impresas que un lector de pantalla no puede captar. También es útil en el trabajo para digitalizar notas manuscritas relativamente legibles y pasarlas a texto editable, o para copiar al instante teléfonos, direcciones y contraseñas de Wi‑Fi sin necesidad de teclearlas a ciegas.
La app utiliza modelos de visión por computador y reconocimiento de texto para comparar lo que ve la cámara con la inmensa base de datos de imágenes y contenidos de Google. Clasifica objetos por similitud y contexto —incluyendo metadatos como idioma o localización— para ofrecer resultados relevantes: desde la raza de un perro hasta el modelo de un mueble y las tiendas donde se vende, pasando por menús de restaurante con reseñas asociadas a cada plato.
Sin embargo, aunque todo esto es muy práctico, Google Lens no está pensada como herramienta de ciberseguridad. Puede ayudar indirectamente —por ejemplo, a leer textos que tu lector de pantalla no detecta—, pero no entiende de certificados, políticas de cookies ni patrones de phishing salvo de forma tangencial. Y, como cualquier sistema de reconocimiento, tiene sus sesgos y límites: la precisión depende de la calidad de la imagen, la claridad del texto y la diversidad de los datos de entrenamiento.
Tampoco hay que olvidar las implicaciones de privacidad: escaneas todo tipo de documentos y entornos con la cámara y parte de esa información se procesa en la nube de Google. Aunque existan protocolos de protección, siempre conviene aplicar el mismo criterio que con Be My Eyes: no subir documentos extremadamente sensibles si hay alternativas locales, y revisar la configuración de permisos, historiales y almacenamiento en la cuenta.
Cómo funcionan por dentro Be My Eyes y la IA de asistencia visual
Desde el punto de vista técnico, aplicaciones como Be My Eyes se apoyan en arquitecturas cliente‑servidor clásicas pero con requisitos de seguridad elevados. La cámara del teléfono captura vídeo o imágenes, que viajan cifradas mediante HTTPS o WebRTC hacia servidores en la nube. Allí se enrutan a voluntarios o a servicios de IA según el modo elegido.
Para reducir latencia y consumo de datos, el cliente puede realizar preprocesado de imagen con bibliotecas de visión como OpenCV, comprimiendo y ajustando la calidad antes de enviar. Las sesiones de vídeo trabajan con cifrado de extremo a extremo (suele emplearse AES‑256 sobre TLS 1.2/1.3), de modo que un posible atacante intermedio no pueda ver el contenido. Aun así, la existencia de servidores centralizados obliga a cuidar mucho la gestión de logs, los accesos internos y las auditorías periódicas.
Cuando se activa Be My AI, la imagen se envía a una API de modelos multimodales como GPT‑4 Vision. El modelo genera un “embedding” visual (una representación numérica de lo que ve) y lo combina con el texto de la pregunta para producir una respuesta coherente. Antes de devolverse al usuario, la salida suele pasar por filtros de moderación para evitar contenido inapropiado, aunque esto no elimina las alucinaciones ni garantiza al 100% la exactitud de los datos.
En términos regulatorios, estas aplicaciones tienen que alinearse con normas como el RGPD en Europa, la CCPA en California o las directrices de OWASP para apps móviles. Eso implica informar claramente de qué datos se recogen, dónde se procesan, durante cuánto tiempo se conservan, ofrecer mecanismos de borrado y garantizar que solo se tratan para la finalidad declarada. También deben evaluar riesgos mediante análisis de impacto de privacidad, sobre todo cuando tratan información de salud o datos biométricos implícitos (por ejemplo, patrones de movimiento captados en vídeo).
Para mejorar rendimiento y resiliencia, muchas soluciones empiezan a explorar procesamiento en el borde (edge computing) y modelos ligeros locales que cubren tareas sencillas sin necesidad de conexión: leer etiquetas estándar, identificar objetos básicos, detectar contraste o colores. Los modelos grandes en la nube se reservan para escenas complejas, documentos extensos o análisis más profundos.
Riesgos, vulnerabilidades y defensas en el ecosistema de IA accesible
El despliegue masivo de IA en aplicaciones de asistencia visual no está exento de riesgos. Uno de los más estudiados son los ataques adversarios: imágenes manipuladas a propósito para engañar al modelo y hacer que describa algo que no existe o que ignore un elemento crítico (por ejemplo, un texto de advertencia). Técnicas como FGSM o variantes más avanzadas han demostrado que bastan pequeñas perturbaciones en los píxeles para provocar errores en sistemas de visión por computador.
En el plano de la red, la transmisión constante de imágenes y vídeo abre la puerta a ataques de tipo man‑in‑the‑middle si la configuración TLS es débil o está mal implementada. Aunque hoy lo normal es trabajar con TLS 1.3 y certificados robustos, errores de implementación, librerías obsoletas o malas configuraciones pueden crear agujeros inesperados. De ahí la importancia de pruebas de penetración regulares y de seguir las guías OWASP Mobile Top 10.
La privacidad sigue siendo un vector crítico: las imágenes pueden contener información personal identificable, documentos, rostros, matrículas, interiores de viviendas… Incluso si el proveedor promete no usar estos datos para entrenar modelos, cualquier brecha de seguridad podría exponerlos. Por eso, las mejores prácticas recomiendan anonimización (pixelado de caras, eliminación automática de áreas sensibles), retención mínima y, en algunos casos, técnicas avanzadas como privacidad diferencial.
Otro problema es la opacidad de los modelos “caja negra”. Para usuarios ciegos, el derecho a entender por qué un sistema ha tomado cierta decisión (por ejemplo, que un medicamento está caducado o que una web parece segura) es especialmente relevante. Iniciativas de IA explicable (XAI) intentan dar algo de luz sobre qué partes de la imagen han pesado más en la respuesta, pero todavía están lejos de ser comprensibles para el público general y, sobre todo, para quienes interactúan únicamente a través de audio.
En paralelo, estas apps dependen de cadenas de suministro tecnológicas cada vez más complejas: APIs externas, servicios de autenticación, almacenamiento en la nube, frameworks de terceros… Cualquier eslabón comprometido puede derivar en un incidente de seguridad tipo “supply chain”, como el famoso caso de SolarWinds en otro ámbito. Diversificar proveedores, exigir cláusulas de seguridad por diseño y mantener inventarios claros de dependencias se ha vuelto esencial.
Mitigación automatizada de amenazas: el “escudo” que opera en segundo plano
Mientras las personas interactúan con apps de asistencia visual, en la trastienda de muchas organizaciones opera un arsenal de herramientas de mitigación automatizada de amenazas diseñado para detectar y frenar ataques en cuestión de segundos. El objetivo es claro: los atacantes se mueven muy rápido y saturan los procesos manuales; si la respuesta no está automatizada, el margen de error humano se dispara.
Entre las piezas clave están los firewalls de nueva generación (NGFW), capaces de inspeccionar en profundidad el tráfico, entender qué aplicaciones se están usando, aplicar reglas dinámicas en función del contexto y apoyarse en inteligencia de amenazas actualizada para bloquear patrones maliciosos en tiempo real. Junto a ellos, los sistemas SIEM centralizan logs y eventos de toda la infraestructura, correlacionan señales dispersas y disparan respuestas automáticas cuando detectan indicadores de compromiso.
La protección automatizada de endpoints añade otra capa: análisis de comportamiento, cuarentenas automáticas, detección sin firmas para identificar malware desconocido o ataques de día cero. Las herramientas modernas combinan este enfoque con gestión automatizada de parches (para cerrar vulnerabilidades en cuanto se publican) y segmentación inteligente de redes que aísla áreas comprometidas para que un incidente no se propague por toda la organización.
Un componente especialmente relevante para usuarios remotos y dispositivos personales (BYOD) es el acceso de red de confianza cero (ZTNA) y los servicios de firewall en la nube (FWaaS). Estos modelos dejan atrás la idea de un “perímetro” único y asumen que cada acceso debe ser verificado, cada dispositivo monitorizado y cada flujo de datos inspeccionado, incluso si viene desde dentro de la red corporativa.
Combinadas, estas tecnologías permiten un monitoreo 24/7 que reduce puntos ciegos, mejora la visibilidad sobre el tráfico cifrado y da contexto suficiente para priorizar alertas reales frente a ruido. El gran reto aquí no es tanto desplegar más y más herramientas, sino integrarlas bien, bajar el volumen de falsos positivos y convertir la visibilidad en una disciplina continua, no en una auditoría puntual.
Recomendaciones prácticas para personas ciegas y con baja visión
Más allá de la parte técnica, hay una serie de medidas muy concretas que cualquier usuario con discapacidad visual puede adoptar para reforzar su seguridad sin volverse loco. La primera, y probablemente la más efectiva, es instalar una solución de seguridad de confianza en todos los dispositivos (ordenador, móvil, tablet). Los productos actuales incluyen protección web, filtros anti‑phishing y análisis de adjuntos que funcionan en segundo plano mientras el lector de pantalla hace su trabajo.
La segunda es utilizar un gestor de contraseñas: estas aplicaciones no solo generan claves fuertes y únicas, sino que solo rellenan automáticamente credenciales en el dominio exacto que se ha guardado. Si caes en una web de phishing con una dirección ligeramente distinta, el gestor no completará el usuario ni la contraseña, lo que sirve como señal de alerta muy clara incluso si no ves la pantalla.
También conviene dedicar unos minutos a personalizar las ayudas técnicas: configurar atajos de teclado del lector de pantalla para escuchar rápidamente el dominio completo de la página actual, activar avisos sonoros cuando el navegador muestre advertencias de certificado o de contenido mixto, o ajustar el zoom y el contraste en el caso de baja visión para que el ojo pueda detectar cambios sutiles en la interfaz.
En el día a día, es buena idea adoptar pequeños hábitos como desconfiar de mensajes que pidan urgencia extrema o datos personales inesperados, contrastar la información con una fuente oficial (teléfono del banco, web oficial tecleada a mano, app de la administración) y comentar con alguien de confianza las dudas más delicadas. Y, siempre que se use IA o asistentes visuales, evitar mostrar datos que no mostrarías a un desconocido en persona.
Todo este ecosistema —lectores de pantalla, IA de visión, herramientas de seguridad automatizada y buenas prácticas individuales— está convergiendo en una dirección clara: hacer posible que las personas ciegas y con baja visión se muevan por Internet con la misma autonomía y seguridad que el resto. Todavía hay brechas de accesibilidad, riesgos de privacidad y modelos de IA que se equivocan, pero el margen de mejora es enorme y la combinación adecuada de tecnología, diseño inclusivo y criterio propio marca la diferencia entre navegar a ciegas o hacerlo con un auténtico escudo digital a tu favor.












