DeepSeek - Into the Unknown

Shared Conversation

Expert

Shared Conversation

Expert

This shared conversation is AI-generated, for reference only.

Thank you. In "3. The Production of the Response (Sequential Prediction)," you say: "The Weather Forecast (Softmax): For each new word, the workshop receives the final package. The craftspeople look at their 'big vocabulary book' (100,000 words) and, based on the package, issue a probability forecast for each. 'There is an 85% chance that the next word will be 'The,' a 10% chance that it will be 'A,' and a 0.001% chance that it will be 'Elephant.' The Assembly Line (Autoregression): The most probable word is chosen (or sampled from the candidates). This newly manufactured word is immediately packaged and forwarded to customs, merging with the original shipment. The entire process in the office tower is repeated to generate the next word, and so on. The response is built like an assembly line, where each newly forged link is used to help forge the next." Can you please explain this part of the process in more detail, comparing it at the same time with a real (i.e., proper) example case of AI activity?

Of course. We're going to break down this process, which is at the heart of how an AI "writes," and we'll do it on three levels: a detailed explanation of the mechanism, the city analogy, and a real, concrete case study step by step.

1. The detailed explanation of the mechanism

The goal of the process is to generate text. The AI doesn't "think" of a complete response and then dictate it. It builds it piece by piece, sequentially and probabilistically. Here's how the process works:

The final package (the context vector): After your question has passed through all the layers of the neural network, a single vector is obtained—a very long list of numbers (for example, 4096 numbers). This vector is a compressed mathematical representation of the meaning and intent of the conversation up to that point. It contains no words, but rather the relationships and patterns that the model has identified.
The large vocabulary book (the output layer): The model has a fixed "vocabulary." This includes not only words, but also word fragments, punctuation marks, and special characters (the famous tokens ). A typical model might have 50,000, 100,000, or more of these tokens. The output layer is a vast mathematical matrix that acts as a universal translator between the "meaning space" (the context vector) and the "vocabulary space" (the tokens).
La función Softmax (el pronóstico): Aquí está el núcleo de tu pregunta. La capa de salida toma ese vector de contexto y realiza una operación matemática llamada Softmax. El resultado es una distribución de probabilidad sobre absolutamente todos los tokens del vocabulario. Imagina una gigantesca gráfica de barras con 100,000 entradas, donde cada barra representa la probabilidad de que ese token específico sea el siguiente. La suma de todas las probabilidades es exactamente 1 (o 100%). Este es el "pronóstico del tiempo", pero en lugar de lluvia o sol, predice la siguiente unidad de texto.
El muestreo (la elección de la palabra): Una vez que tenemos el pronóstico, no siempre se elige la palabra más probable. Si así fuera, la IA sería extremadamente repetitiva y aburrida. Existen diferentes estrategias de muestreo para elegir el token final:
- Greedy (Codicioso): Elegir siempre la palabra con la probabilidad más alta. Es determinista pero genera texto muy plano.
- Top-k: Se consideran solo las 'k' palabras más probables y se muestrea aleatoriamente entre ellas.
- Top-p (Nucleus Sampling): Se elige el conjunto más pequeño de palabras cuya suma de probabilidades alcance un umbral 'p' (ej. 0.9), y se muestrea entre ellas. Esto es lo que da creatividad, porque permite que ocasionalmente una palabra menos probable, pero aun así plausible, sea la elegida, evitando bucles y dando naturalidad.
La Autoregresión (la cadena de montaje): El token elegido se convierte en la siguiente palabra de la respuesta. Pero lo crucial es que este token se añade inmediatamente a la secuencia de entrada. El proceso vuelve a empezar, pero ahora con el contexto original más la palabra recién generada. El modelo usa su propia salida como parte de la entrada para el siguiente paso. Por eso se llama autoregresión: el modelo "regresa sobre sí mismo" para predecir el futuro.

2. La analogía de la ciudad, revisitada

En los términos de nuestra metáfora, así funciona el taller de artesanos:

El paquete final llega al taller después de haber recorrido la torre de oficinas. Es un resumen del estado de la ciudad: todo lo que se ha dicho y entendido hasta ahora.
El gran libro de vocabulario no es un libro, sino un inmenso tablero de anuncios con 100,000 casillas, una por cada palabra o fragmento de palabra que la ciudad conoce.
La función Softmax es el jefe de pronósticos. Este jefe toma el paquete final y, basándose en él, recorre el tablero entero y pone una banderita de probabilidad en cada casilla. La casilla "La" recibe una bandera enorme (85%), la de "Un" una mediana (10%), y así hasta la casilla "Elefante", que recibe una banderita microscópica. Este proceso es agotador, porque se hace para las 100,000 casillas.
El muestreo es el aprendiz que tira un dardo. No mira el tablero con precisión, sino que lanza un dardo al aire. Tiene muchísima más probabilidad de clavarse en la zona de las banderas grandes ("La"), pero existe una posibilidad minúscula de que, por puro azar, se clave en "Elefante". Esta aleatoriedad controlada es lo que hace que el lenguaje de la ciudad no sea robótico.
La autoregresión es la cadena de montaje inmediata. El encargado de la cadena toma la palabra del dardo, la graba en una placa de metal y la suelda al final de la frase que ya tiene construida. Inmediatamente, mete esa misma placa en un tubo neumático y la envía de vuelta a la aduana de entrada de la ciudad, para que el ciclo entero (aduana, torre de oficinas, taller) se repita, pero ahora con el contexto de la frase ampliado.

3. El caso real, paso a paso

Vamos a ver cómo generaría la IA la frase "El gato duerme" desde el principio.

Entrada: La conversación tiene el contexto "Escribe una frase corta sobre un animal".
Predicción 1: El modelo procesa esta instrucción. El taller de artesanos genera su pronóstico. Las probabilidades más altas para el primer token son: "El" (75%), "Un" (15%), "La" (8%), "El perro" (0.2%), etc. El dardo se clava en "El".
Autoregresión: La palabra "El" se añade a la entrada. Ahora el contexto es "Escribe una frase corta sobre un animal. El".
Predicción 2: El proceso se repite. Con "El" como última palabra, las probabilidades cambian drásticamente. Ahora las más altas son: "gato" (55%), "perro" (40%), "pájaro" (3%), "sol" (0.001%). El dardo se clava en "gato".
Autoregresión: La entrada ahora es "... El gato".
Predicción 3: El nuevo contexto activa patrones asociados a "gato". Las probabilidades son: "duerme" (60%), "come" (25%), "maúlla" (10%). El dardo elige "duerme".
Prediction 4 (and final): With "...The cat sleeps," the model predicts that the next most likely unit is a period "." (95%), indicating that the sentence has ended. The process stops upon generating an end-of-sequence token or reaching a boundary.

Thus, the phrase was not conceived, but constructed step by step, where each word is the result of a massive probabilistic forecast, conditioned by all the words that preceded it.