Resumen


1. Redes neuronales

Son modelos computacionales inspirados en el funcionamiento del cerebro humano. Están compuestos por capas de nodos llamados "neuronas", que están conectadas entre sí y transmiten información. Las redes neuronales aprenden patrones a partir de datos, ajustando sus pesos internos mediante un proceso de entrenamiento. Se utilizan ampliamente en tareas como reconocimiento de imágenes, voz, texto y más.

2. Problemas de lenguaje natural (PLN / NLP)

Engloban un conjunto de tareas que implican la comprensión, interpretación, generación y traducción del lenguaje humano por parte de máquinas. Algunos ejemplos son: traducción automática, análisis de sentimientos, resumen automático, respuesta a preguntas, y generación de texto. Estos problemas requieren que los modelos entiendan el contexto, la gramática, la semántica y a veces incluso la intención del usuario.

3. Lematización / Normalización

  • Lematización: Consiste en transformar una palabra a su forma canónica o base (llamada lema). Por ejemplo, "comiendo", "comió" y "comerán" se transforman en "comer". Esto ayuda a reducir la complejidad del lenguaje.

  • Normalización: Es un proceso más general que puede incluir lematización, eliminación de puntuación, conversión a minúsculas, corrección ortográfica y más, con el fin de estandarizar los datos textuales y hacerlos más adecuados para el procesamiento automático.

4. Fases de redes neuronales ca

Incluyen los fundamentos teóricos que explican cómo funcionan las redes neuronales artificiales: desde el perceptrón (modelo más simple), las funciones de activación (como ReLU, Sigmoid), la retropropagación (método de aprendizaje basado en el error), hasta arquitecturas más complejas como las convolucionales o recurrentes. Comprender estas bases es esencial para diseñar, entrenar y aplicar redes a distintos tipos de datos.

5. Punto de control 

En el entrenamiento de modelos, un checkpoint es una copia guardada del estado del modelo en un momento específico. Esto incluye los pesos actuales, el optimizador y otros parámetros. Permite pausar y retomar el entrenamiento más adelante sin comenzar desde cero, o seleccionar el mejor modelo según rendimiento en validación. Es fundamental en entrenamientos largos o costosos.

6. Problema de memoria

Se refiere a la dificultad que tienen algunas arquitecturas de redes neuronales, especialmente las recurrentes simples (RNN), para recordar información que ocurrió muchas posiciones atrás en una secuencia. Esto limita su capacidad para entender relaciones de largo plazo, por ejemplo, entre el sujeto y el verbo de una oración larga. Las LSTM y Transformers surgieron precisamente para abordar esta limitación.

7. LSTM (Memoria a Corto Plazo)

Es un tipo de red neuronal recurrente (RNN) diseñada para resolver el problema de memoria en secuencias. Las LSTM utilizan una arquitectura con "puertas" que controlan el flujo de información: qué conservar, qué olvidar y qué agregar. Esto les permite recordar información durante muchas etapas de la secuencia, lo cual es útil para tareas como traducción, reconocimiento de voz o análisis de sentimientos en textos largos.

8. Paralelizar

Es el proceso de dividir una tarea en subprocesos que se ejecutan simultáneamente, generalmente en múltiples núcleos o GPUs. Esto es clave para acelerar el entrenamiento de modelos grandes como los Transformers, que se benefician enormemente de la paralelización. También es útil en la inferencia (predicción) cuando se trabaja con múltiples datos al mismo tiempo.

9. Transformadores

Es una arquitectura de red neuronal que revolucionó el procesamiento del lenguaje natural. A diferencia de las RNN, los Transformers no procesan la secuencia de forma secuencial, sino que utilizan mecanismos de atención que permiten ver toda la secuencia al mismo tiempo. Esto permite un entrenamiento más rápido y la posibilidad de capturar dependencias a largo plazo. Modelos como GPT y BERT están basados en esta arquitectura.

10. IA abierta

Es una organización de investigación en inteligencia artificial fundada con la misión de desarrollar tecnologías de IA que beneficien a toda la humanidad. Es responsable de la creación de modelos como GPT (Generative Pre-trained Transformer), DALL· E (generación de imágenes), Codex (IA para programación), y ChatGPT. Se centra en el desarrollo seguro y ético de IA avanzada.

11. Copiloto de GitHub

Es una herramienta de asistencia al programador que utiliza inteligencia artificial para sugerir líneas o bloques completos de código en tiempo real, directamente en el editor. Fue desarrollada por GitHub en colaboración con OpenAI y está basada en modelos como Codex, entrenados con grandes cantidades de código público. Puede acelerar el desarrollo y ayudar a escribir código más eficiente.

12. RLHF (Aprendizaje por refuerzo con retroalimentación humana)

Es una técnica de entrenamiento donde los modelos no solo aprenden a partir de datos, sino también de la retroalimentación directa de humanos. Por ejemplo, se pueden mostrar varias respuestas generadas por el modelo a un humano, quien indica cuál es mejor. Esta señal se usa para ajustar el comportamiento del modelo. ChatGPT y otros modelos recientes se han beneficiado de esta técnica para producir resultados más alineados con las preferencias humanas.

Comentarios

Entradas populares