En primer lugar, a medida que hacemos la transición a la construcción de empresas con agentes en lugar de humanos, necesitamos repensar las cosas desde cero. Esto comienza con lo que yo llamo AJDS – Descripciones de trabajo de agente. Una descripción de trabajo estándar tiene las siguientes cosas:
Sin embargo, una descripción del trabajo del agente debe ser un poco diferente, ya que podemos construir este trabajo, comprarlo o una combinación de estos dos. Si bien un AJD puede ser de naturaleza performativa, puede ayudar a aclarar su propio pensamiento sobre cuáles son sus necesidades para este agente.
Entonces, ¿cómo se ve una descripción del trabajo del agente? La siguiente:
¿Cuál es el resultado que el agente necesita lograr?
¿Qué contexto requiere tener éxito?
¿Cuáles son los requisitos de vivacidad, seguridad y privacidad?
¿Cuál es su presupuesto para que el agente se ejecute?
Antes de saltar a ejemplos, exploremos el paisaje de los enfoques que podemos tomar para construir el agente.
Al decidir cómo construir su agente, debe poder hacer compensaciones entre complejidad, capacidad y contexto.
Algunos ejemplos de cómo necesitaría equilibrar estas cosas:
Un agente que convierte sus notas de voz para redactar publicaciones de weblog sería:
Un agente que revisa sus mensajes de telegrama y lee cosas para usted sería:
Un agente que lee el perfil de Someones LinkedIn y luego elabora un mensaje personalizado sería:
Estoy seguro de que evolucionaré esto con el tiempo, pero ese es un punto de partida de alto nivel para pensar en estas cosas.
Cada vez que vea todo esto “Así es como construí un agente de IA que reemplazó a mi equipo de ventas” en LinkedIn, está 100% lleno de mierda. Si su equipo de ventas son agentes de IA de clics, entonces su equipo de ventas probablemente apesta y su empresa está muriendo.
Los buenos agentes requieren un pensamiento cuidadoso y una comprensión lógica de cuándo un humano debe estar al tanto.
Volviendo al grano, en common tienes tres formas en que puedes construir agentes:
Estas son sus conversaciones ChatGPT existentes, proyectos de Claude o GPT personalizados que ha creado que pueden construirse de forma nativa y la mayoría de nosotros hemos usado. A medida que agrega contexto a estos chats/proyectos, su contexto crece con el tiempo, lo que los hace más valiosos/pegajosos. No debe descartar a estos agentes, ya que siguen siendo los mejores para hacer lo que necesita.

Su único inconveniente con estos agentes es que cuanto más les hables, más podrán olvidar su contexto, por lo que debes confiar en fuertes instrucciones del sistema. Me gusta configurar mi Claude, Gemini y Chatgpt con diferentes indicaciones del sistema para que sean diferentes tipos de agentes que puedo consultar.
ChatGPT es ideally suited para la función de memoria y las capacidades de investigación de O3.
Claude es genial cuando no quiero contexto y alguien amigable, pero no me gasta y me cube que soy un genio visionario que resolverá el hambre mundial
Géminis es fácilmente el modelo más capaz que doy escenarios difíciles para calcular los vehículos eléctricos de situaciones. ¡Sin embargo, el contexto es frágil con él!
Cuando piensas en agentes, esto es muy possible que comiences. Sus agentes de nivel 1 se basan en plataformas que dicen:
El mejor ejemplo de esto es Zapier, Lindy, operador de ChatGPT u otro easy Herramientas de orquestación de flujo de trabajo. Estas plataformas pueden ser intimidantes para los usuarios no técnicos, pero pueden ser fáciles de dominar una vez que las comprenda.
Son la mejor foto de la mayoría de las personas de hacer un agente de IA que es algo útil en su vida. Sin embargo, solo se ajustan a un caso de uso estrecho de:
Cosas que son difíciles para las personas no técnicas pero valiosas en algún caso specific
Cosas que son muy fáciles para las personas técnicas que no quieren complejidad adicional
Todavía tengo webhooks más bajistas en los que confío para hacer cosas misceláneas en todo el lugar a pesar de tener niveles más altos de capacidad.
Nivel 2: plataformas de semi -código (alta capacidad, contexto medio, alta complejidad)
Esto es cuando comienzas a entrar en cosas que son más valiosas. De lejos, diría que N8N domina esta categoría en términos de la capacidad. Las plataformas de semi-código requieren que comprenda bien cómo funcionan las API, las estructuras de datos y las tuberías de datos. A cambio, la capacidad que le brindan es mucho más alta que sus flujos de trabajo basados en el gatillo estándar.
La única razón por la que se clasifican como contexto medio es que sus motores de ejecución realmente no pueden manejar nada más que 1000 de filas de datos. Para un contexto actual, necesitará decenas de miles, si no millones de filas.
Cualquier cosa en el que desee un contexto serio y adecuado, sus plataformas de semi de código lo tomarán. También debe recordar que estas plataformas no pueden “permanecer siempre” para hacer las cosas y ser costosas a medida que escala (cientos de dólares muy rápidamente).
Las plataformas de nivel 2 no son para principiantes, son para usuarios que pueden manejar tuberías de datos, lógica del sistema y configuración handbook. Nivel 3 – Código personalizado (alta capacidad, contexto máximo, alta complejidad)
Terminamos un círculo completo donde los agentes más capaces son bases de código personalizadas que tienen la potencia completa del cómputo en el que se ejecutan, pueden acceder a cualquier API en Web, siempre puede permanecer y es eficiente a medida que se escala hasta la escala máxima de su cómputo.
A medida que aumenta la capacidad, también se requiere el esfuerzo de ingeniería. El código personalizado se encuentra en la parte superior para aquellos que pueden manejar la configuración. Si bien puede tener un tipo de vibra un poco de esto, necesita una capacidad de ingeniería actual para desarrollar estas cosas, ya que tienen que hacer el trabajo y la ventana de contexto está más allá de lo que la mayoría de las aplicaciones de chat pueden manejar. Además, esto también requiere la implementación de infraestructura y las habilidades para poder ejecutarlo de manera consistente. Incluso a medida que la IA se vuelve más capaz, no resuelve las decisiones arquitectónicas en las que debe pensar al construir un agente basado en código personalizado.
Hay casi una heurística muy easy para pensar en esto:
Esta es la razón por la cual la descripción del agente es extremadamente útil, ya que le ayuda a evaluar qué nivel necesita para la tarea en cuestión. Los agentes que no necesitan mucho contexto o escala deben delegarse a niveles más bajos. Los agentes que son críticos, necesitan precisión y escala de manejo necesitarán compilaciones personalizadas que ninguna plataforma pueda darle fuera de la caja.
Cierre
Aunque los influencers en las redes sociales hacen que sea fácil creer que AI resolverá mágicamente todos sus problemas, todavía hay mucho pensamiento que debe hacerse para que estas cosas funcionen. Me gusta pensar mejor en ellos como “apalancamiento psychological”. No dicta cómo dirigir su mente, pero le permite ir 100 veces más rápido en cualquier dirección que elija. Afortunadamente, también puedes aprender todo lo que quieras con estas increíbles herramientas. No técnico → técnico es solo unos meses de solicitación ahora.
El mundo está abierto a aquellos que tienen la determinación, la determinación y la resistencia para hacer cosas difíciles con la tecnología que hace que aprender algo sea fácil. Paradójico de una manera hermosa.