diff --git a/es/5_vision_language_models/README.md b/es/5_vision_language_models/README.md new file mode 100644 index 00000000..7c57337c --- /dev/null +++ b/es/5_vision_language_models/README.md @@ -0,0 +1,38 @@ +# Modelos de Visión-Lenguaje + +## 1. Uso de VLM + +Los Modelos de Visión-Lenguaje (VLMs por sus siglas en inglés) procesan imágenes y texto de manera simultánea para realizar tareas como la generación de descripciones de imágenes, la respuesta a preguntas visuales y el razonamiento multimodal. + +Una arquitectura típica de VLM incluye un codificador de imágenes para extraer características visuales, una capa de proyección para alinear las representaciones visuales y textuales, y un modelo de lenguaje para procesar o generar texto. Esto permite al modelo establecer conexiones entre elementos visuales y conceptos lingüísticos. + +Los VLMs pueden configurarse según el caso de uso. Los modelos base manejan tareas generales de visión-lenguaje, mientras que las variantes optimizadas para chat permiten interacciones conversacionales. Algunos modelos incluyen componentes adicionales para fundamentar predicciones en evidencia visual o especializarse en tareas específicas, como la detección de objetos. + +Para más detalles sobre el uso y las técnicas de VLMs, consulta la página [Uso de VLM](./vlm_usage.md). + +## 2. Fine-tuning de VLM + +El fine-tuning de un VLM consiste en adaptar un modelo previamente entrenado para realizar tareas específicas o mejorar su desempeño en un conjunto de datos determinado. Este proceso puede seguir metodologías como el fine-tuning supervisado, la optimización por preferencias o un enfoque híbrido que combine ambos, como se introduce en los Módulos 1 y 2. + +Aunque las herramientas y técnicas principales son similares a las utilizadas en los LLMs, el fine-tuning de VLMs requiere un enfoque adicional en la representación y preparación de datos de imágenes. Esto garantiza que el modelo integre y procese de manera efectiva tanto los datos visuales como los textuales para un rendimiento óptimo. Dado que el modelo de demostración, SmolVLM, es significativamente más grande que el modelo de lenguaje utilizado en el módulo anterior, es fundamental explorar métodos para un fine-tuning eficiente. Técnicas como la cuantización y PEFT pueden hacer que el proceso sea más accesible y rentable, permitiendo que más usuarios experimenten con el modelo. + +Para obtener una guía detallada sobre el fine-tuning de VLMs, visita la página [fine-tuning de VLM](./vlm_finetuning.md). + +## Cuadernos de ejercicios + +| Título | Descripción | Ejercicio | Enlace | Colab | +|--------|-------------|-----------|--------|-------| +| Uso de VLM | Aprende a cargar y usar un VLM preentrenado para diversas tareas | 🐢 Procesar una imagen
🐕 Procesar múltiples imágenes con manejo por lotes
🦁 Procesar un video completo | [Notebook](./notebooks/vlm_usage_sample.ipynb) | Abrir en Colab | +| fine-tuning de VLM | Aprende a ajustar un VLM preentrenado para conjuntos de datos específicos | 🐢 Usar un conjunto de datos básico para fine-tuning
🐕 Probar un nuevo conjunto de datos
🦁 Experimentar con métodos alternativos de fine-tuning | [Notebook](./notebooks/vlm_sft_sample.ipynb) | Abrir en Colab | + +## Referencias + +- [Hugging Face Learn: fine-tuning supervisado de VLMs](https://huggingface.co/learn/cookbook/fine_tuning_vlm_trl) +- [Hugging Face Learn: fine-tuning supervisado de SmolVLM](https://huggingface.co/learn/cookbook/fine_tuning_smol_vlm_sft_trl) +- [Hugging Face Learn: Optimización de preferencias para el fine-tuning de SmolVLM](https://huggingface.co/learn/cookbook/fine_tuning_vlm_dpo_smolvlm_instruct) +- [Hugging Face Blog: Optimización de preferencias para VLMs](https://huggingface.co/blog/dpo_vlm) +- [Hugging Face Blog: Modelos de Visión y Lenguaje](https://huggingface.co/blog/vlms) +- [Hugging Face Blog: SmolVLM](https://huggingface.co/blog/smolvlm) +- [Hugging Face Model: SmolVLM-Instruct](https://huggingface.co/HuggingFaceTB/SmolVLM-Instruct) +- [CLIP: Learning Transferable Visual Models from Natural Language Supervision](https://arxiv.org/abs/2103.00020) +- [Align Before Fuse: Vision and Language Representation Learning with Momentum Distillation](https://arxiv.org/abs/2107.07651) diff --git a/es/5_vision_language_models/images/VLM_Architecture.png b/es/5_vision_language_models/images/VLM_Architecture.png new file mode 100644 index 00000000..7b817084 Binary files /dev/null and b/es/5_vision_language_models/images/VLM_Architecture.png differ diff --git a/es/5_vision_language_models/images/VLM_Process.png b/es/5_vision_language_models/images/VLM_Process.png new file mode 100644 index 00000000..1f2beae7 Binary files /dev/null and b/es/5_vision_language_models/images/VLM_Process.png differ diff --git a/es/5_vision_language_models/images/VLM_Usage.png b/es/5_vision_language_models/images/VLM_Usage.png new file mode 100644 index 00000000..d25e04fd Binary files /dev/null and b/es/5_vision_language_models/images/VLM_Usage.png differ diff --git a/es/5_vision_language_models/notebooks/vlm_sft_sample.ipynb b/es/5_vision_language_models/notebooks/vlm_sft_sample.ipynb new file mode 100644 index 00000000..ffff5171 --- /dev/null +++ b/es/5_vision_language_models/notebooks/vlm_sft_sample.ipynb @@ -0,0 +1,464 @@ +{ + "cells": [ + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "# Fine-Tuning de un VLM \n", + "\n", + "Este notebook demuestra cómo realizar fine-tuning del modelo `HuggingFaceTB/SmolVLM-Instruct` utilizando `SFTTrainer` de la biblioteca `trl`. Las celdas del notebook ejecutarán el proceso de fine-tuning del modelo. Puedes seleccionar el nivel de dificultad probando diferentes conjuntos de datos. \n", + "\n", + "
\n", + "

Ejercicio: Fine-Tuning de SmolVLM con SFTTrainer

\n", + "

Elige un conjunto de datos del Hugging Face Hub y realiza fine-tuning de un modelo con él.

\n", + "

Niveles de Dificultad

\n", + "

🐢 Usa el conjunto de datos `HuggingFaceM4/ChartQA` para entrenar con SFT.

\n", + "

🐕 Usa el modelo ajustado para generar una respuesta y mejora el ejemplo base.

\n", + "

🦁 Prueba otros conjuntos de datos y muestra mejoras.

\n", + "
" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": {}, + "outputs": [], + "source": [ + "# Instalar los requisitos en Google Colab\n", + "# !pip install transformers datasets trl huggingface_hub\n", + "\n", + "# Autenticarse en Hugging Face\n", + "from huggingface_hub import login\n", + "login()\n", + "\n", + "# Para mayor comodidad, puedes crear una variable de entorno que contenga tu token del hub como HF_TOKEN" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": {}, + "outputs": [], + "source": [ + "# Importart las librerías necesarias\n", + "\n", + "import torch\n", + "import os\n", + "from transformers import AutoProcessor, AutoModelForVision2Seq, BitsAndBytesConfig\n", + "from transformers.image_utils import load_image" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": {}, + "outputs": [ + { + "name": "stderr", + "output_type": "stream", + "text": [ + "`low_cpu_mem_usage` was None, now default to True since model is quantized.\n", + "You shouldn't move a model that is dispatched using accelerate hooks.\n", + "Some kwargs in processor config are unused and will not have any effect: image_seq_len. \n" + ] + } + ], + "source": [ + "device = (\n", + " \"cuda\"\n", + " if torch.cuda.is_available()\n", + " else \"mps\" if torch.backends.mps.is_available() else \"cpu\"\n", + ")\n", + "\n", + "quantization_config = BitsAndBytesConfig(load_in_4bit=True, \n", + " bnb_4bit_use_double_quant=True, \n", + " bnb_4bit_quant_type=\"nf4\", \n", + " bnb_4bit_compute_dtype=torch.bfloat16)\n", + "model_name = \"HuggingFaceTB/SmolVLM-Instruct\"\n", + "model = AutoModelForVision2Seq.from_pretrained(\n", + " model_name,\n", + " quantization_config=quantization_config,\n", + " torch_dtype=torch.bfloat16,\n", + ").to(device)\n", + "processor = AutoProcessor.from_pretrained(\"HuggingFaceTB/SmolVLM-Instruct\")\n", + "\n", + "# Establecer el nombre para guardar y/o subir el modelo ajustado\n", + "finetune_name = \"SmolVLM-FT-MyDataset\"\n", + "finetune_tags = [\"smol-course\", \"module_5\"]" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "## Preparación del Conjunto de Datos \n", + "\n", + "Cargaremos un conjunto de datos de ejemplo y lo formatearemos para el entrenamiento. El conjunto de datos debe estar estructurado con pares de entrada-salida, donde cada entrada es un prompt y la salida es la respuesta esperada del modelo. \n", + "\n", + "**TRL formateará los mensajes de entrada según las plantillas de chat del modelo.** Deben representarse como una lista de diccionarios con las claves: `role` y `content`. " + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": {}, + "outputs": [ + { + "data": { + "text/plain": [ + "DatasetDict({\n", + " train: Dataset({\n", + " features: ['image', 'query', 'label', 'human_or_machine'],\n", + " num_rows: 28299\n", + " })\n", + " val: Dataset({\n", + " features: ['image', 'query', 'label', 'human_or_machine'],\n", + " num_rows: 1920\n", + " })\n", + " test: Dataset({\n", + " features: ['image', 'query', 'label', 'human_or_machine'],\n", + " num_rows: 2500\n", + " })\n", + "})" + ] + }, + "execution_count": 4, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "# Cargar un conjunto de datos de ejemplo\n", + "from datasets import load_dataset\n", + "\n", + "# TODO: define tu conjunto de datos y configuración usando los parámetros path y name\n", + "dataset_name = \"HuggingFaceM4/ChartQA\"\n", + "ds = load_dataset(path=dataset_name)\n", + "ds" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": {}, + "outputs": [ + { + "data": { + "image/png": "", + "text/plain": [ + "
" + ] + }, + "metadata": {}, + "output_type": "display_data" + }, + { + "name": "stdout", + "output_type": "stream", + "text": [ + "{'image': , 'query': 'What is the sum favourable value in the year 2014 and 2015?', 'label': ['95'], 'human_or_machine': 0, 'image_size': ((314, 281),)}\n", + "Query: What is the sum favourable value in the year 2014 and 2015?\n", + "Expected Answer: 95\n", + "Model Prediction: User:What is the sum favourable value in the year 2014 and 2015?\n", + "Answer: 91.\n" + ] + } + ], + "source": [ + "import matplotlib.pyplot as plt\n", + "sample = ds['train'][3]\n", + "\n", + "# Mostrar la estructura de una muestra individual\n", + "sample['image_size'] = sample['image'].size,\n", + "\n", + "# Visualizar la imagen y los metadatos relacionados\n", + "plt.imshow(sample['image'])\n", + "plt.axis(\"off\")\n", + "plt.title(\"Imagen de Gráfico de Ejemplo\")\n", + "plt.show()\n", + "\n", + "print(sample)\n", + "\n", + "# Preprocesar la muestra\n", + "prompt = [{\"role\": \"user\", \"content\": [{\"type\": \"image\"}, {\"type\": \"text\", \"text\": sample[\"query\"]}]}]\n", + "formatted_query = processor.apply_chat_template(prompt, tokenize=False)\n", + "\n", + "inputs = processor(\n", + " images=sample[\"image\"], \n", + " text=formatted_query, \n", + " return_tensors=\"pt\"\n", + ").to(device)\n", + "inputs = {key: val.to(device, dtype=torch.bfloat16) if val.dtype == torch.float else val.to(device) for key, val in inputs.items()}\n", + "\n", + "# Generar predicciones\n", + "with torch.no_grad():\n", + " outputs = model.generate(**inputs,\n", + " max_length=1600)\n", + "\n", + "# Decodificar la predicción\n", + "prediction = processor.batch_decode(outputs, skip_special_tokens=True)\n", + "\n", + "# Mostrar el resultado\n", + "print(f\"Consulta: {sample['query']}\")\n", + "print(f\"Respuesta Esperada: {sample['label'][0]}\")\n", + "print(f\"Predicción del Modelo: {prediction[0]}\")" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "## Configurar LoRA" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "trainable params: 2,568,192 || all params: 2,248,841,072 || trainable%: 0.1142\n" + ] + } + ], + "source": [ + "from peft import LoraConfig, get_peft_model\n", + "\n", + "# Configurar LoRA\n", + "peft_config = LoraConfig(\n", + " lora_alpha=16,\n", + " lora_dropout=0.05,\n", + " r=8,\n", + " bias=\"none\",\n", + " target_modules=[\"q_proj\", \"v_proj\"],\n", + " task_type=\"CAUSAL_LM\",\n", + ")\n", + "\n", + "# Aplicar la adaptación del modelo con PEFT\n", + "peft_model = get_peft_model(model, peft_config)\n", + "\n", + "# Imprimir los parámetros entrenables\n", + "peft_model.print_trainable_parameters()" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "## Configuración del Trainer \n", + "\n", + "El `Trainer` se configura con varios parámetros que controlan el proceso de entrenamiento. Estos incluyen el número de pasos de entrenamiento, el tamaño del lote, la tasa de aprendizaje y la estrategia de evaluación. Ajusta estos parámetros según tus necesidades específicas y los recursos computacionales disponibles. " + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": {}, + "outputs": [], + "source": [ + "def collate_fn(examples):\n", + " # Plantilla de mensaje del sistema para el VLM\n", + " system_message = \"\"\"You are a Vision Language Model specialized in interpreting visual data from chart images.\n", + " Your task is to analyze the provided chart image and respond to queries with concise answers, usually a single word, number, or short phrase.\n", + " The charts include a variety of types (e.g., line charts, bar charts) and contain colors, labels, and text.\n", + " Focus on delivering accurate, succinct answers based on the visual information. Avoid additional explanation unless absolutely necessary.\"\"\"\n", + "\n", + " # Inicializar listas para las entradas de texto e imagen\n", + " text_inputs = []\n", + " image_inputs = []\n", + "\n", + " # Procesar todos los ejemplos en un solo bucle\n", + " for example in examples:\n", + " # Formatear la estructura del chat para el procesador\n", + " formatted_example = {\n", + " \"messages\": [\n", + " {\n", + " \"role\": \"system\",\n", + " \"content\": [{\"type\": \"text\", \"text\": system_message}],\n", + " },\n", + " {\n", + " \"role\": \"user\",\n", + " \"content\": [\n", + " {\n", + " \"type\": \"image\",\n", + " },\n", + " {\n", + " \"type\": \"text\",\n", + " \"text\": example[\"query\"],\n", + " },\n", + " ],\n", + " },\n", + " ]\n", + " }\n", + " # Aplicar la plantilla de chat y eliminar espacios adicionales\n", + " text_inputs.append(processor.apply_chat_template(formatted_example[\"messages\"], tokenize=False).strip())\n", + " \n", + " # Asegurar que las imágenes estén en modo RGB\n", + " image = example[\"image\"]\n", + " if image.mode != 'RGB':\n", + " image = image.convert('RGB')\n", + " image_inputs.append([image])\n", + "\n", + " # Tokenizar los textos y procesar las imágenes\n", + " batch = processor(\n", + " text=text_inputs,\n", + " images=image_inputs,\n", + " return_tensors=\"pt\",\n", + " padding=True\n", + " )\n", + "\n", + " # Clonar los IDs de entrada para usarlos como etiquetas\n", + " labels = batch[\"input_ids\"].clone()\n", + " labels[labels == processor.tokenizer.pad_token_id] = -100 # Enmascarar los tokens de padding en las etiquetas\n", + "\n", + " # Asegurar que image_token se convierta en string si es un AddedToken\n", + " # En algunos procesadores, processor.image_token devuelve una lista para cada imagen.\n", + " # TODO: AutoProcessor.from_pretrained(\"HuggingFaceTB/SmolVLM-Instruct\") ¿solo tiene uno?\n", + " image_token_id = processor.tokenizer.convert_tokens_to_ids(str(processor.image_token))\n", + "\n", + " # Enmascarar los IDs de token de imagen en las etiquetas\n", + " labels[labels == image_token_id] = -100\n", + "\n", + " # Agregar las etiquetas al batch\n", + " batch[\"labels\"] = labels\n", + "\n", + " return batch" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": {}, + "outputs": [], + "source": [ + "from trl import SFTConfig, SFTTrainer\n", + "\n", + "# Configurar el Trainer\n", + "training_args = SFTConfig(\n", + " output_dir=\"sft_output\", # Directorio para guardar el modelo\n", + " num_train_epochs=3, # Número de épocas de entrenamiento\n", + " per_device_train_batch_size=1, # Tamaño del lote por dispositivo durante el entrenamiento\n", + " gradient_accumulation_steps=16, # Número de pasos antes de realizar una actualización de gradiente\n", + " gradient_checkpointing=True, # Usar gradient checkpointing para ahorrar memoria\n", + " optim=\"adamw_torch_fused\", # Usar el optimizador AdamW fusionado\n", + " logging_steps=5, # Registrar cada 10 pasos\n", + " save_strategy=\"epoch\", # Guardar un checkpoint en cada época\n", + " learning_rate=2e-4, # Tasa de aprendizaje, basada en el artículo de QLoRA\n", + " bf16=True, # Usar precisión bfloat16\n", + " tf32=True, # Usar precisión tf32\n", + " max_grad_norm=0.3, # Máximo gradiente normado basado en el artículo de QLoRA\n", + " warmup_ratio=0.03, # Proporción de calentamiento basada en el artículo de QLoRA\n", + " lr_scheduler_type=\"constant\", # Usar programador de tasa de aprendizaje constante\n", + " push_to_hub=True, # Subir el modelo al Hugging Face Hub\n", + " gradient_checkpointing_kwargs = {\"use_reentrant\": False}, # Usar checkpointing reentrant\n", + " # dataloader_num_workers=16, \n", + " dataset_text_field=\"\", # Se necesita un campo de texto ficticio para el collator\n", + " dataset_kwargs = {\"skip_prepare_dataset\": True}, # Importante para el collator\n", + " remove_unused_columns = False # Necesario, de lo contrario, se eliminarán las características excepto la etiqueta\n", + ")\n", + "\n", + "# Inicializar el Trainer\n", + "trainer = SFTTrainer(\n", + " model=model,\n", + " args=training_args,\n", + " train_dataset=ds[\"train\"],\n", + " eval_dataset=ds[\"test\"],\n", + " data_collator=collate_fn,\n", + " peft_config=peft_config,\n", + " tokenizer=processor.tokenizer,\n", + ")\n", + "\n", + "# TODO: 🦁 🐕 Alinea los parámetros de SFTTrainer con el conjunto de datos elegido. \n", + "# Por ejemplo, si usas el conjunto de datos `bigcode/the-stack-smol`, \n", + "# deberás elegir la columna `content`.\n" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "## Entrenamiento del Modelo \n", + "\n", + "Con el trainer configurado, ahora podemos proceder a entrenar el modelo. El proceso de entrenamiento implicará iterar sobre el conjunto de datos, calcular la pérdida y actualizar los parámetros del modelo para minimizar esta pérdida. " + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": {}, + "outputs": [ + { + "data": { + "application/vnd.jupyter.widget-view+json": { + "model_id": "6b4e2897ddbc47fa90254bcf12ce92f6", + "version_major": 2, + "version_minor": 0 + }, + "text/plain": [ + " 0%| | 0/5304 [00:00" + ], + "text/plain": [ + "" + ] + }, + "metadata": {}, + "output_type": "display_data" + }, + { + "data": { + "text/html": [ + "" + ], + "text/plain": [ + "" + ] + }, + "metadata": {}, + "output_type": "display_data" + } + ], + "source": [ + "from IPython.display import Image, display\n", + "\n", + "image_url1 = \"https://cdn.pixabay.com/photo/2024/11/20/09/14/christmas-9210799_1280.jpg\"\n", + "display(Image(url=image_url1))\n", + "\n", + "image_url2 = \"https://cdn.pixabay.com/photo/2024/11/23/08/18/christmas-9218404_1280.jpg\"\n", + "display(Image(url=image_url2))" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": {}, + "outputs": [ + { + "name": "stderr", + "output_type": "stream", + "text": [ + "/home/duydl/Miniconda3/envs/py310/lib/python3.10/site-packages/bitsandbytes/nn/modules.py:451: UserWarning: Input type into Linear4bit is torch.float16, but bnb_4bit_compute_dtype=torch.float32 (default). This will lead to slow inference or training speed.\n", + " warnings.warn(\n" + ] + }, + { + "name": "stdout", + "output_type": "stream", + "text": [ + "['User:Can you describe the image?\\nAssistant: The image is a scene of a person walking in a forest. The person is wearing a coat and a cap. The person is holding the hand of another person. The person is walking on a path. The path is covered with dry leaves. The background of the image is a forest with trees.']\n" + ] + } + ], + "source": [ + "# Cargar una imagen\n", + "image1 = load_image(image_url1)\n", + "\n", + "# Crear mensajes de entrada\n", + "messages = [\n", + " {\n", + " \"role\": \"user\",\n", + " \"content\": [\n", + " {\"type\": \"image\"},\n", + " {\"type\": \"text\", \"text\": \"Can you describe the image?\"}\n", + " ]\n", + " },\n", + "]\n", + "\n", + "# Preparar las entradas\n", + "prompt = processor.apply_chat_template(messages, add_generation_prompt=True)\n", + "inputs = processor(text=prompt, images=[image1], return_tensors=\"pt\")\n", + "inputs = inputs.to(device)\n", + "\n", + "# Generar salidas\n", + "generated_ids = model.generate(**inputs, max_new_tokens=500)\n", + "generated_texts = processor.batch_decode(\n", + " generated_ids,\n", + " skip_special_tokens=True,\n", + ")\n", + "\n", + "# Imprimir el texto generado\n", + "print(generated_texts)" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "### 2. Comparación de Múltiples Imágenes \n", + "El modelo puede procesar y comparar múltiples imágenes. Determinemos la temática en común de dos imágenes.\n" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "['User:What event do they both represent?\\nAssistant: Christmas.']\n" + ] + } + ], + "source": [ + "# Cargar imágenes\n", + "image2 = load_image(image_url2)\n", + "\n", + "# Crear mensajes de entrada\n", + "messages = [\n", + " # {\n", + " # \"role\": \"user\",\n", + " # \"content\": [\n", + " # {\"type\": \"image\"},\n", + " # {\"type\": \"image\"},\n", + " # {\"type\": \"text\", \"text\": \"Can you describe the two images?\"}\n", + " # ]\n", + " # },\n", + " {\n", + " \"role\": \"user\",\n", + " \"content\": [\n", + " {\"type\": \"image\"},\n", + " {\"type\": \"image\"},\n", + " {\"type\": \"text\", \"text\": \"What event do they both represent?\"}\n", + " ]\n", + " },\n", + "]\n", + "\n", + "# Preparar las entradas\n", + "prompt = processor.apply_chat_template(messages, add_generation_prompt=True)\n", + "inputs = processor(text=prompt, images=[image1, image2], return_tensors=\"pt\")\n", + "inputs = inputs.to(device)\n", + "\n", + "# Generar salidas\n", + "generated_ids = model.generate(**inputs, max_new_tokens=500)\n", + "generated_texts = processor.batch_decode(\n", + " generated_ids,\n", + " skip_special_tokens=True,\n", + ")\n", + "\n", + "# Imprimir el texto generado\n", + "print(generated_texts)\n" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "### 🔠 Reconocimiento de Texto (OCR) \n", + "El VLM también puede reconocer e interpretar texto en imágenes, lo que lo hace adecuado para tareas como el análisis de documentos. \n", + "Puedes probar con imágenes que contengan texto más denso." + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": {}, + "outputs": [ + { + "data": { + "text/html": [ + "" + ], + "text/plain": [ + "" + ] + }, + "metadata": {}, + "output_type": "display_data" + }, + { + "name": "stdout", + "output_type": "stream", + "text": [ + "['User:What is written?\\nAssistant: MERRY CHRISTMAS AND A HAPPY NEW YEAR']\n" + ] + } + ], + "source": [ + "document_image_url = \"https://cdn.pixabay.com/photo/2020/11/30/19/23/christmas-5792015_960_720.png\"\n", + "display(Image(url=document_image_url))\n", + "\n", + "# Cargar la imagen del documento\n", + "document_image = load_image(document_image_url)\n", + "\n", + "# Crear el mensaje de entrada para el análisis\n", + "messages = [\n", + " {\n", + " \"role\": \"user\",\n", + " \"content\": [\n", + " {\"type\": \"image\"},\n", + " {\"type\": \"text\", \"text\": \"What is written?\"}\n", + " ]\n", + " }\n", + "]\n", + "\n", + "# Preparar las entradas\n", + "prompt = processor.apply_chat_template(messages, add_generation_prompt=True)\n", + "inputs = processor(text=prompt, images=[document_image], return_tensors=\"pt\")\n", + "inputs = inputs.to(device)\n", + "\n", + "# Generar salidas\n", + "generated_ids = model.generate(**inputs, max_new_tokens=500)\n", + "generated_texts = processor.batch_decode(\n", + " generated_ids,\n", + " skip_special_tokens=True,\n", + ")\n", + "\n", + "# Imprimir el texto generado\n", + "print(generated_texts)" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "## Procesamiento de videos \n", + "\n", + "Los Modelos de Visión-Lenguaje (VLMs) pueden procesar videos de forma indirecta extrayendo fotogramas clave y razonando sobre ellos en orden temporal. Aunque los VLMs no tienen las capacidades de modelado temporal de los modelos de video dedicados, aún pueden: \n", + "\n", + "- Describir acciones o eventos analizando fotogramas muestreados de forma secuencial. \n", + "- Responder preguntas sobre videos basándose en fotogramas representativos. \n", + "- Resumir el contenido de un video combinando descripciones textuales de múltiples fotogramas. \n", + "\n", + "Probemos con un ejemplo: \n", + "\n", + "" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": {}, + "outputs": [], + "source": [ + "# !pip install opencv-python" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": {}, + "outputs": [], + "source": [ + "from IPython.display import Video\n", + "import cv2\n", + "import numpy as np\n", + "\n", + "def extract_frames(video_path, max_frames=50, target_size=None):\n", + " cap = cv2.VideoCapture(video_path)\n", + " if not cap.isOpened():\n", + " raise ValueError(f\"Could not open video: {video_path}\")\n", + " \n", + " total_frames = int(cap.get(cv2.CAP_PROP_FRAME_COUNT))\n", + " frame_indices = np.linspace(0, total_frames - 1, max_frames, dtype=int)\n", + "\n", + " frames = []\n", + " for idx in frame_indices:\n", + " cap.set(cv2.CAP_PROP_POS_FRAMES, idx)\n", + " ret, frame = cap.read()\n", + " if ret:\n", + " frame = PIL.Image.fromarray(cv2.cvtColor(frame, cv2.COLOR_BGR2RGB))\n", + " if target_size:\n", + " frames.append(resize_and_crop(frame, target_size))\n", + " else:\n", + " frames.append(frame)\n", + " cap.release()\n", + " return frames\n", + "\n", + "def resize_and_crop(image, target_size):\n", + " width, height = image.size\n", + " scale = target_size / min(width, height)\n", + " image = image.resize((int(width * scale), int(height * scale)), PIL.Image.Resampling.LANCZOS)\n", + " left = (image.width - target_size) // 2\n", + " top = (image.height - target_size) // 2\n", + " return image.crop((left, top, left + target_size, top + target_size))\n", + "\n", + "# Link al video\n", + "video_link = \"https://cdn.pixabay.com/video/2023/10/28/186794-879050032_large.mp4\"" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Response: User: Following are the frames of a video in temporal order.Describe what the woman is doing.\n", + "Assistant: The woman is hanging an ornament on a Christmas tree.\n" + ] + } + ], + "source": [ + "question = \"Describe what the woman is doing.\"\n", + "\n", + "def generate_response(model, processor, frames, question):\n", + "\n", + " image_tokens = [{\"type\": \"image\"} for _ in frames]\n", + " messages = [\n", + " {\n", + " \"role\": \"user\",\n", + " \"content\": [{\"type\": \"text\", \"text\": \"Following are the frames of a video in temporal order.\"}, *image_tokens, {\"type\": \"text\", \"text\": question}]\n", + " }\n", + " ]\n", + " inputs = processor(\n", + " text=processor.apply_chat_template(messages, add_generation_prompt=True),\n", + " images=frames,\n", + " return_tensors=\"pt\"\n", + " ).to(model.device)\n", + "\n", + " outputs = model.generate(\n", + " **inputs, max_new_tokens=100, num_beams=5, temperature=0.7, do_sample=True, use_cache=True\n", + " )\n", + " return processor.decode(outputs[0], skip_special_tokens=True)\n", + "\n", + "\n", + "# Extraer fotogramas del video\n", + "frames = extract_frames(video_link, max_frames=15, target_size=384)\n", + "\n", + "processor.image_processor.size = (384, 384)\n", + "processor.image_processor.do_resize = False\n", + "\n", + "# Generar respuesta\n", + "response = generate_response(model, processor, frames, question)\n", + "\n", + "# Mostrar el resultado\n", + "# print(\"Question:\", question)\n", + "print(\"Response:\", response)" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "## VLMs en español\n", + "\n", + "Como pudiste notar, todos los ejemplos en este notebook usaron texto en inglés. Esto es porque el modelo `SmolVLM-Instruct` que usamos fue entrenado solamente en inglés. " + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "## 💐 ¡Has Terminado! \n", + "\n", + "Este notebook demostró cómo utilizar un Modelo de Visión-Lenguaje (VLM) y cómo estructurar prompts para tareas multimodales. Siguiendo los pasos descritos aquí, puedes experimentar con los VLMs y sus aplicaciones. \n", + "\n", + "### Próximos Pasos para Explorar: \n", + "- Experimenta con más casos de uso de VLMs. \n", + "- Colabora con un colega revisando sus pull requests (PRs). \n", + "- Contribuye a mejorar este material del curso abriendo un issue o enviando un PR para introducir nuevos casos de uso, ejemplos o conceptos. \n", + "\n", + "¡Feliz exploración! 🌟 " + ] + } + ], + "metadata": { + "kernelspec": { + "display_name": "py310", + "language": "python", + "name": "python3" + }, + "language_info": { + "codemirror_mode": { + "name": "ipython", + "version": 3 + }, + "file_extension": ".py", + "mimetype": "text/x-python", + "name": "python", + "nbconvert_exporter": "python", + "pygments_lexer": "ipython3", + "version": "3.10.16" + } + }, + "nbformat": 4, + "nbformat_minor": 2 +} diff --git a/es/5_vision_language_models/vlm_finetuning.md b/es/5_vision_language_models/vlm_finetuning.md new file mode 100644 index 00000000..4737dfed --- /dev/null +++ b/es/5_vision_language_models/vlm_finetuning.md @@ -0,0 +1,97 @@ +# Fine-Tuning de Modelos de Visión-Lenguaje + +## Fine-Tuning Eficiente + +### Cuantización +La cuantización reduce la precisión de los pesos y activaciones del modelo, disminuyendo significativamente el uso de memoria y acelerando los cálculos. Por ejemplo, cambiar de `float32` a `bfloat16` reduce a la mitad los requisitos de memoria por parámetro manteniendo el rendimiento. Para una compresión más agresiva, se pueden usar cuantizaciones de 8 bits y 4 bits, reduciendo aún más el uso de memoria, aunque con cierta pérdida de precisión. Estas técnicas pueden aplicarse tanto al modelo como a los ajustes del optimizador, permitiendo entrenamientos eficientes en hardware con recursos limitados. + +### PEFT & LoRA +Como se introdujo en el Módulo 3, LoRA (Low-Rank Adaptation) se enfoca en aprender matrices de descomposición de rango reducido mientras se mantienen congelados los pesos originales del modelo. Esto reduce drásticamente la cantidad de parámetros entrenables, disminuyendo significativamente la cantidad de recursos requeridos. LoRA, cuando se integra con PEFT, permite el fine-tuning de modelos grandes ajustando solo un subconjunto pequeño y entrenable de parámetros. Este enfoque es particularmente efectivo para adaptaciones a tareas específicas, reduciendo miles de millones de parámetros entrenables a solo millones, manteniendo el mismo rendimiento. + +### Optimización del Tamaño del Lote (Batch Size en inglés) +Para optimizar el tamaño del lote en el proceso de fine-tuning, comienza con un valor grande y redúcelo si ocurren errores de memoria (OOM). Compensa aumentando `gradient_accumulation_steps`, lo que mantiene el tamaño total del lote en múltiples actualizaciones. Además, habilita `gradient_checkpointing` para reducir el uso de memoria mediante el recálculo de estados intermedios durante la propogación hacia atrás, intercambiando tiempo de cómputo por menor uso de memoria de activaciones. Estas estrategias maximizan la utilización del hardware y ayudan a superar las restricciones de memoria. + +```python +from transformers import TrainingArguments + +training_args = TrainingArguments( + output_dir="./fine_tuned_model", # Directorio para checkpoints + per_device_train_batch_size=4, # Tamaño del lote por dispositivo (GPU/TPU) + num_train_epochs=3, # Número total de épocas de entrenamiento + learning_rate=5e-5, # Tasa de aprendizaje + save_steps=1000, # Guardar checkpoint cada 1000 pasos + bf16=True, # Usar precisión mixta para el entrenamiento + gradient_checkpointing=True, # Habilitar para reducir el uso de memoria de activaciones + gradient_accumulation_steps=16, # Acumular gradientes en 16 pasos + logging_steps=50 # Registrar métricas cada 50 pasos +) +``` + +## **Supervised Fine-Tuning (SFT)** + +El Supervised Fine-Tuning (SFT) adapta un Modelo de Visión-Lenguaje (VLM) preentrenado a tareas específicas mediante el uso de conjuntos de datos etiquetados que contienen pares de imágenes y texto. Este método mejora la capacidad del modelo para desempeñar funciones específicas en un dominio o tarea, como responder a preguntas visuales, generar descripciones de imágenes o interpretar gráficos. + +### **Descripción General** +SFT es esencial cuando se necesita que un VLM se especialice en un dominio o resuelva problemas específicos donde las capacidades generales del modelo base pueden ser insuficientes. Por ejemplo, si el modelo tiene dificultades con características visuales únicas o terminología especializada, SFT le permite enfocarse en estas áreas mediante el aprendizaje con datos etiquetados. + +Si bien el SFT es altamente efectivo, presenta ciertas limitaciones: +- **Dependencia de Datos**: Se requieren conjuntos de datos etiquetados de alta calidad y adecuados para la tarea. +- **Recursos Computacionales**: El fine-tuning de grandes VLMs consume muchos recursos. +- **Riesgo de Sobreajuste**: Si el fine-tuning es demasiado ajustado a los datos, el modelo puede perder su capacidad de generalización. + +A pesar de estos desafíos, SFT sigue siendo una técnica robusta para mejorar el rendimiento del modelo en contextos específicos. + +### **Uso** +1. **Preparación de Datos**: Comienza con un conjunto de datos etiquetado que relacione imágenes con texto, como preguntas y respuestas. Por ejemplo, en tareas como el análisis de gráficos, el conjunto `HuggingFaceM4/ChartQA` incluye imágenes de gráficos, consultas y respuestas concisas. + +2. **Configuración del Modelo**: Carga un VLM preentrenado adecuado para la tarea, como `HuggingFaceTB/SmolVLM-Instruct`, y un procesador para preparar entradas de texto e imagen. Configura el modelo para aprendizaje supervisado y adáptalo a tu hardware. + +3. **Proceso de Fine-Tuning**: + - **Formateo de Datos**: Estructura el conjunto de datos en un formato de chatbot, emparejando mensajes del sistema, consultas de usuario y respuestas correspondientes. + - **Configuración del Entrenamiento**: Usa herramientas como `TrainingArguments` de Hugging Face o `SFTConfig` de TRL para configurar los parámetros del entrenamiento, como el tamaño del lote, la tasa de aprendizaje y los pasos de acumulación de gradientes. + - **Técnicas de Optimización**: Usa **gradient checkpointing** para ahorrar memoria durante el entrenamiento y emplea modelos cuantizados para reducir los requisitos de memoria y acelerar los cálculos. + - Emplea `SFTTrainer` de la librería TRL para simplificar el proceso de entrenamiento. + +## Optimización por Preferencias + +La Optimización por Preferencias, en particular la Direct Preference Optimization (DPO), entrena un Modelo de Visión-Lenguaje (VLM) para alinearse con las preferencias humanas. En lugar de seguir estrictamente instrucciones predefinidas, el modelo aprende a priorizar resultados que los humanos consideran preferibles. Este enfoque es útil para tareas que requieren juicios creativos, razonamiento matizado o respuestas variadas. + +### **Descripción General** +La Optimización por Preferencias es ideal en escenarios donde las preferencias humanas son clave para el éxito de la tarea. Mediante el fine-tuning en conjuntos de datos que codifican preferencias humanas, DPO mejora la capacidad del modelo para generar respuestas alineadas con las expectativas del usuario. Este método es particularmente efectivo para tareas como escritura creativa, interacciones con clientes o escenarios de opción múltiple. + +Apesar de sus beneficios, este método tiene desafíos: +- **Calidad de Datos**: Se requieren conjuntos de datos anotados con preferencias de alta calidad, lo que puede ser un cuello de botella en la recolección de datos. +- **Complejidad**: El entrenamiento involucra procesos sofisticados como muestreo por pares de preferencias y balanceo de recursos computacionales. + +Los conjuntos de datos de preferencias deben capturar diferencias claras entre respuestas candidatas. Por ejemplo, un dataset puede emparejar una pregunta con dos respuestas: una preferida y otra menos aceptable. El modelo aprende a predecir la respuesta preferida, incluso si no es completamente correcta, siempre que esté mejor alineada con el juicio humano. + +### **Uso** +1. **Preparación del Conjunto de Datos** + Un conjunto de datos etiquetado con preferencias es fundamental para el entrenamiento. Cada ejemplo suele consistir en un prompt (por ejemplo, una imagen y una pregunta) y dos respuestas candidatas: una elegida (preferida) y otra rechazada. Por ejemplo: + + - **Pregunta**: ¿Cuántas familias? + - **Rechazada**: La imagen no proporciona información sobre familias. + - **Preferida**: La imagen muestra una tabla de una Organización Sindical con 18,000 familias. + + El conjunto de datos enseña al modelo a priorizar respuestas mejor alineadas, incluso si no son perfectas. + +2. **Configuración del Modelo** + Carga un VLM preentrenado e intégralo con la biblioteca TRL de Hugging Face, que admite DPO, junto con un procesador para preparar las entradas de texto e imagen. Configura el modelo para aprendizaje supervisado y adáptalo a tu hardware. + +3. **Pipeline de Entrenamiento** + El entrenamiento implica la configuración de parámetros específicos de DPO. Aquí tienes un resumen del proceso: + + - **Formateo del Conjunto de Datos**: Estructura cada muestra con prompts, imágenes y respuestas candidatas. + - **Función de Pérdida**: Usa una función de pérdida basada en preferencias para optimizar el modelo en la selección de la respuesta preferida. + - **Entrenamiento Eficiente**: Combina técnicas como cuantización, acumulación de gradientes y adaptadores LoRA para optimizar el uso de memoria y el cómputo. + + +## Recursos + +- [Hugging Face Learn: Supervised Fine-Tuning VLMs](https://huggingface.co/learn/cookbook/fine_tuning_vlm_trl) +- [Hugging Face Learn: Supervised Fine-Tuning SmolVLM](https://huggingface.co/learn/cookbook/fine_tuning_smol_vlm_sft_trl) +- [Hugging Face Blog: Preference Optimization for VLMs](https://huggingface.co/blog/dpo_vlm) + +## Próximos Pasos + +⏩ Prueba el [vlm_finetune_sample.ipynb](./notebooks/vlm_finetune_sample.ipynb) para implementar este enfoque de alineación de preferencias. diff --git a/es/5_vision_language_models/vlm_usage.md b/es/5_vision_language_models/vlm_usage.md new file mode 100644 index 00000000..08b42517 --- /dev/null +++ b/es/5_vision_language_models/vlm_usage.md @@ -0,0 +1,76 @@ +# Modelos de Visión-Lenguaje + +Los Modelos de Visión-Lenguaje (VLMs) cierran la brecha entre imágenes y texto, permitiendo tareas avanzadas como generar descripciones de imágenes, responder preguntas basadas en elementos visuales o comprender la relación entre datos textuales y visuales. Su arquitectura está diseñada para procesar ambas modalidades de manera integrada. + +### Arquitectura + +Los VLMs combinan componentes de procesamiento de imágenes con modelos de generación de texto para lograr una comprensión unificada. Los elementos principales de su arquitectura son: + +![Arquitectura de VLM](./images/VLM_Architecture.png) + +- **Codificador de Imágenes**: Transforma imágenes en representaciones numéricas compactas. Se utilizan comúnmente codificadores preentrenados como CLIP o vision transformers (ViT). +- **Proyector de Embeddings**: Mapea características de imagen a un espacio compatible con embeddings textuales, utilizando capas densas o transformaciones lineales. +- **Decodificador de Texto**: Actúa como el componente de generación de lenguaje, traduciendo información multimodal en texto coherente. Ejemplos incluyen modelos generativos como Llama o Vicuna. +- **Proyector Multimodal**: Proporciona una capa adicional para combinar representaciones de imagen y texto. Es fundamental para modelos como LLaVA en la creación de conexiones más sólidas entre ambas modalidades. + +La mayoría de los VLMs aprovechan codificadores de imagen y decodificadores de texto preentrenados, alineándolos mediante fine-tuning en conjuntos de datos de pares imagen-texto. Este enfoque optimiza el entrenamiento y permite que los modelos generalicen de manera efectiva. + +### Uso + +![Proceso de VLM](./images/VLM_Process.png) + +Los VLMs se aplican a una variedad de tareas multimodales. Su adaptabilidad les permite desempeñarse en distintos campos con diferentes niveles de fine-tuning: + +- **Generación de Descripciones de Imágenes**: Creación de textos descriptivos a partir de imágenes. +- **Respuesta a Preguntas Visuales (VQA por sus siglas en inglés)**: Responder preguntas sobre el contenido de una imagen. +- **Recuperación Cruzada de Modalidades**: Encontrar texto correspondiente a una imagen o viceversa. +- **Aplicaciones Creativas**: Asistencia en diseño, generación artística o creación de contenido multimedia interactivo. + +![Uso de VLM](./images/VLM_Usage.png) + +El entrenamiento y fine-tuning de VLMs depende de la disponibilidad conjuntos de datos de alta calidad que vinculen imágenes con anotaciones textuales. Herramientas como la librería `transformers` de Hugging Face facilitan el acceso a VLMs preentrenados y proporcionan flujos de trabajo optimizados para fine-tuning personalizado. + +### Formato de Chat + +Muchos VLMs están estructurados para interactuar de manera conversacional, mejorando la experiencia del usuario. Este formato incluye: + +- Un **mensaje del sistema** que define el rol o contexto del modelo, como "Eres un asistente que analiza datos visuales". +- **Consultas del usuario** que combinan entradas textuales con imágenes asociadas. +- **Respuestas del asistente** que proporcionan salidas textuales derivadas del análisis multimodal. + +Este esquema conversacional es intuitivo y se alinea con las expectativas de los usuarios, especialmente en aplicaciones interactivas como servicio al cliente o herramientas educativas. + +Aquí tienes un ejemplo de cómo se estructura una entrada formateada: + +```json +[ + { + "role": "system", + "content": [{"type": "text", "text": "Eres un Modelo de Visión-Lenguaje especializado en interpretar datos visuales de gráficos..."}] + }, + { + "role": "user", + "content": [ + {"type": "image", "image": ""}, + {"type": "text", "text": "¿Cuál es el valor más alto en el gráfico de barras?"} + ] + }, + { + "role": "assistant", + "content": [{"type": "text", "text": "42"}] + } +] +``` + +**Trabajo con Múltiples Imágenes y Videos** + +Los VLMs también pueden procesar múltiples imágenes o incluso videos adaptando la estructura de entrada para manejar entradas visuales secuenciales o en paralelo. Para videos, se pueden extraer cuadros y procesarlos como imágenes individuales, manteniendo el orden temporal. + +## Recursos + +- [Hugging Face Blog: Modelos de Visión-Lenguaje](https://huggingface.co/blog/vlms) +- [Hugging Face Blog: SmolVLM](https://huggingface.co/blog/smolvlm) + +## Próximos Pasos + +⏩ Prueba el [vlm_usage_sample.ipynb](./notebooks/vlm_usage_sample.ipynb) para experimentar con diferentes usos de SMOLVLM.