Skip to content

Vision (Ver)

Vision (Ver)

La función Vision te permite capturar cualquier cosa de tu pantalla — una captura completa, una región seleccionada o una ventana específica — y preguntarle a la IA sobre lo que ve. La respuesta puede inyectarse en la posición de tu cursor, copiarse al portapapeles o enviarse al Chat Rápido, todo sin interrumpir tu flujo de trabajo.

TIP
Vision funciona de maravilla junto a tu voz. Después de capturar, puedes grabar una pregunta hablada (por ejemplo, *"¿Qué significa este error?"* o *"Resume los datos de esta tabla"*) antes de que la IA procese la imagen.

Iniciar una Captura de Vision

Presiona la tecla de acceso rápido de Vision desde cualquier aplicación:

Ctrl + Alt + S (Predeterminado)

La pantalla se oscurece y aparece una superposición de recorte transparente con una barra de indicaciones en la parte inferior.

Modos de Captura

EntradaQué ocurre
Clic sobre una ventanaCaptura esa ventana específica
Clic y arrastrarCaptura una región rectangular personalizada
Presionar FCaptura el monitor activo completo
Presionar ACaptura todos los monitores como una sola imagen panorámica
Presionar EscCancela y vuelve a tu trabajo

Después de hacer la selección, la superposición se cierra y aparece el panel de acciones de Vision.

El Panel de Acciones de Vision

Este paso te permite escribir (o grabar) una pregunta opcional y elegir qué debe hacer la IA con la captura de pantalla.

Consulta Opcional

El campo de texto acepta tu pregunta. Puedes escribirla o hacer clic en el botón de micrófono para grabar una consulta de voz (hasta 30 segundos). dIKta.me transcribe tu pregunta y rellena el campo automáticamente.

Si dejas el campo vacío, se utiliza la consulta predeterminada: "Describe lo que ves y extrae cualquier texto visible."

Alternancia Local / Nube

Cambia entre Local (tu modelo de visión de Ollama configurado, que se ejecuta en tu dispositivo) y Nube (Gemini, Claude u OpenAI) para cada captura individualmente.

Botones de Acción

BotónQué hace
SaveGuarda la captura en un archivo y la copia al portapapeles. Sin IA.
ClipboardEnvía la imagen con la consulta a la IA y copia la respuesta a tu portapapeles.
ChatAdjunta la captura al Chat Rápido para mantener una conversación de varios turnos sobre ella.
NoteEjecuta la canalización de visión y graba una nota de voz que se añade a tu archivo de notas.
OCRExtrae todo el texto visible de la captura exactamente como aparece y lo copia a tu portapapeles.
TableExtrae datos tabulares como valores separados por tabulaciones (TSV), listos para pegar en Excel o Sheets.
ColorAbre el Selector de Color sobre la captura realizada.
RecordInicia una grabación de video de la región seleccionada.
NOTE
**Table** siempre usa el proveedor de nube independientemente de tu alternancia Local/Nube, ya que los modelos locales producen resultados poco fiables para esta tarea.

Selector de Color

Ctrl + Alt + C también abre el Selector de Color directamente, sin pasar por la superposición de Vision.

Una vez abierta la superposición:

  • Mueve el ratón para ver una lupa en vivo con el color exacto del píxel bajo el cursor, junto con sus valores hexadecimal y RGB.
  • Clic para seleccionar un color. Los colores elegidos se acumulan en una tira de paleta en la parte inferior.
  • Retroceso para deshacer la última selección.
  • Enter para terminar y copiar todos los colores seleccionados al portapapeles.
  • Tab para terminar y enviar la paleta a la IA para un análisis de colores.
  • Esc para cancelar (si aún no has seleccionado ningún color) o terminar con la paleta actual.

Grabación de Video (Captura de Momentos)

Inicia una grabación desde el panel de acciones de Vision haciendo clic en Record, o usa tu tecla de acceso rápido de video configurada.

Aparece la superposición de recorte para que selecciones una región o la pantalla completa. Una vez confirmada, aparece una barra flotante compacta en la parte superior de la pantalla que muestra:

  • Un punto rojo parpadeante y un temporizador en curso
  • Un botón de Pausar / Reanudar
  • Un botón de Detener

La grabación captura simultáneamente la pantalla, el audio del micrófono y el audio del sistema. Se puede activar una burbuja opcional de cámara web (imagen en imagen, esquina inferior derecha) en Ajustes.

La duración máxima de grabación predeterminada es de 120 segundos.

Después de Grabar

Al hacer clic en Stop, aparece un panel posterior a la captura:

BotónQué hace
SaveGuarda el archivo MP4 localmente. Sin procesamiento de IA.
DescribeSube el clip a Gemini y devuelve una descripción de lo que ocurrió.
DocumentPide a Gemini que escriba instrucciones paso a paso para las acciones mostradas.
Bug ReportPide a Gemini que genere un informe de error estructurado basado en lo que ve.
ChatAdjunta el clip al Chat Rápido para una conversación de varios turnos.
NOTE
Las acciones de IA para video requieren conexión a la nube. La acción **Save** siempre funciona sin conexión.

Salida

De forma predeterminada, las respuestas de Vision se inyectan en la posición de tu cursor, igual que el Dictado. Puedes cambiar el comportamiento predeterminado por acción en Ajustes → Vision:

ModoComportamiento
Inject (predeterminado)La respuesta se escribe en la ventana activa en la posición del cursor.
ClipboardLa respuesta se copia al portapapeles. Una notificación confirma la acción.
Toast OnlyLa respuesta se muestra en una notificación de Windows. No se escribe ni se copia nada.

Modelos de Visión Locales

Si tienes Ollama instalado, puedes procesar imágenes completamente en tu propio equipo. Modelos recomendados:

ModeloComando de OllamaVRAMIdeal para
minicpm-v (predeterminado)ollama pull minicpm-v~2 GBUso general, OCR, descripción
moondreamollama pull moondream~1.2 GBDescripciones rápidas en hardware con poca VRAM
llava-phi3ollama pull llava-phi3~2.5 GBRazonamiento más potente

Configura tu modelo de visión local en Ajustes → Vision → Local Vision Model.