Alex Alberto di Antrópico No se anduvo con rodeos: “Claude 4 es el mejor modelo de programación del mundo”. Una afirmación atrevida pero que los hechos confirman. Las pruebas son despiadadas: 72.5% en SWE-bench Verified, siete horas de trabajo autónomo sin interrupciones, capacidad de gestionar miles de pasos en secuencia. Claude 4 no es sólo una evolución tecnológica, es un cambio de paradigma que redefine lo que la inteligencia artificial puede hacer. Y lo mejor es que puedes probarlo hoy.
Cuando la IA decide trabajar horas extra
Hoy Anthropic realizó uno de esos movimientos que te hacen decir: "Ahora estamos en problemas". Lanzó Claude 4 Opus y Claude 4 Sonnet, marcando el regreso de la empresa a los modelos grandes después de meses dedicados a perfeccionar las variantes Sonnet. ¿La verdadera sorpresa? Este sistema puede funcionar durante 24 horas seguidas sin perder la cabeza.
Sí señor: mientras su compañero desarrollador comienza a murmurar incomprensiblemente después de las primeras ocho horas de depuración, Claude 4 Opus Demostró que podía jugar Pokémon durante un día entero o encargarse de la refactorización de código durante siete horas seguidas. Los modelos anteriores tenían la resistencia de un corredor de maratón novato: después de dos horas comenzaron a producir una serie de errores. Como él mismo confiesa El propio Alberto:
“Existe una enorme demanda de aplicaciones de agencia, y Claude 4 encaja perfectamente en este escenario”.

Los números que hacen temblar a la competencia
Digámoslo de esta manera: si los puntos de referencia fueran un juego de póquer, Claude 4 simplemente habría jugado cuatro ases. 72.5% en SWE-bench verificado, un resultado que hace que los modelos anteriores parezcan principiantes. Para que os hagáis una idea, superar el 50% en este benchmark ya se consideraba un milagro. Datos oficiales También muestran un impresionante 43.2% en Terminal-bench.
GitHub se enteró inmediatamente del acuerdo y decidió utilizar Claude Sonnet 4 como base para el nuevo agente de codificación en GitHub Copilot. Cuando GitHub cambia de caballo, siempre hay una buena razón. Sourcegraph habla de “un salto sustancial en el desarrollo de software”, mientras que Augment Code informa “mayores tasas de éxito y más cambios de código quirúrgicos”. En resumen, todo el mundo quiere subirse al tren de Claude 4.
Claude 4: la seguridad ante todo (pero sin paranoia)
Antrópico se ha activado por primera vez su estándar de nivel 3 de seguridad de IA, que normalmente está reservado para modelos “potencialmente peligrosos”. ¿La razón? Claude 4 Opus podría teóricamente ayudar a alguien con conocimientos científicos a desarrollar armas químicas, biológicas o nucleares. Es básicamente tan inteligente que hay que mantenerlo bajo control.
Pero no todo es pesimismo: los nuevos modelos también tienen un 65 por ciento menos de probabilidades de hacer trampa o tomar atajos que sus predecesores. Parece que han aprendido no sólo a ser más inteligentes, sino también más honestos. Un poco como crecer, en pocas palabras.
El modo de “pensamiento profundo” que faltaba
Claude 4 introduce algo realmente innovador: un sistema híbrido que puede pasar de respuestas ultrarrápidas a reflexiones profundas. Cuando activas el modo de pensamiento extendido, el modelo literalmente se toma su tiempo para pensar, mostrándote un resumen de lo que está procesando en su “mente digital”. Es como si un colega finalmente te explicara su proceso de pensamiento en lugar de simplemente arrojarte la solución.
Integración con Claude Code ahora está disponible para todos, con soporte para GitHub Actions e integraciones directas con VS Code y JetBrains. Los cambios que propone aparecen directamente en tus archivos. Se acabaron las copias y pegas desordenadas: Claude hace todo directamente en su entorno de trabajo.
El negocio de los miles de millones (literalmente)
Los números empresariales hablan por sí solos: Antrópico ha llegado ingresos anualizados de 2 mil millones de dólares en el primer trimestre, más del doble del rendimiento anterior. Mike Krieger, director de producto, admite con franqueza: «Antes usaba a Claude como asesor, y escribía la mayoría de los textos yo mismo. Ahora, Claude 4 se encarga de la mayor parte de mi redacción».
Este es el mismo Krieger que cofundó Instagram, así que… Si dice que la IA le ahorra tiempo, tal vez deberíamos escucharlo. También porque no es como si pudiera cantarlo y tocarlo él mismo: Cursor llama a Claude 4 "de vanguardia para la codificación", mientras que Repita Habla de un “progreso espectacular en ediciones complejas de múltiples archivos”. Cuando incluso las herramientas más expertas te felicitan, significa que has dado en el blanco.

Claude 4, el momento de la verdad
Como ya hemos visto Con Claude 2.0, la batalla entre la IA generativa es cada vez más feroz. Pero esta vez decidí hacer algo diferente: un experimento que hace que este artículo sea único en su tipo.
He pasado las últimas horas probando Claude 4 de todas las formas posibles. Investigación en línea, análisis de fuentes, estructuración de contenidos, escritura creativa, incluso ironía y chistes. Y tengo que admitirlo: los resultados me sorprendieron. ¿Las 700 palabras que acabas de leer? Son el resultado de estas pruebas intensivas.
La pregunta que os dejo es sencilla: ¿podéis distinguir entre lo que yo escribí y lo que escribió Claude 4? Porque francamente después de esta prueba ya ni siquiera estoy seguro.
El futuro de la IA ya no es una promesa lejana. Él está aquí, y quizá simplemente te contó su historia sin que tú te dieras cuenta.