Ahorra hasta un 80% en retrocesiones con zonavalue.com
Ahorra hasta un 80% en retrocesiones con zonavalue.com
Ahorra hasta un 80% en retrocesiones con zonavalue.com
Ahorra hasta un 80% en retrocesiones con zonavalue.com

A día de hoy, la Inteligencia Artificial, basada en el Reinforcement Learning, se encuentra con diversas dificultades que no permiten su aplicación en escenarios reales. Con el fin de comprender este problema, debemos entender el funcionamiento del aprendizaje reforzado, conocido como Reinforcement Learning.

El aprendizaje reforzado es necesario para que la Inteligencia Artificial pueda aprender por sí misma. Funciona marcando objetivos a una máquina para que ésta pueda tomar decisiones de forma aleatoria. Algunas de estas decisiones se acercan al objetivo marcado, mientras otras, se alejan. Es a través de recompensas dadas a la toma de decisiones cercanas al objetivo que la máquina aprende.

La realidad es que hasta la fecha, la Inteligencia Artificial no ha podido aplicarse más que para resolver una única tarea al mismo tiempo. Esto imposibilita la aplicación de la IA al mundo real. A su vez, contamos con que el mundo real se sostiene sobre escenarios inestables, no estacionarios y con datos cambiantes. Añadido a la necesidad de la resolución de tareas y subtareas de manera contínua, nos hemos visto en la necesidad de resolver esta ineficiencia.

La tecnología de Substrate AI ha dado con la solución. Para comenzar, nuestra arquitectura logra organizar las tareas en objetivos y subobjetivos de una manera que permite a los agentes de Substrate AI resolver tareas que tienen subtareas implícitas. Esto en sí mismo ya es una revolución que está en proceso de patentamiento.

Respecto a la aplicación en el mundo real, la tecnología de Substrate AI se puede usar en casos donde la tecnología estándar no alcanza. Nuestra tecnología, pendiente de patente, tiene características que permiten que su tecnología se auto-adapte a los nuevos cambios en el ambiente sin necesidad de volver a capacitar a los agentes de IA. Esto permite que en entornos cambiantes el proceso continúe.

Cabe destacar que nuestra tecnología sigue un modelo emocional al inspirarse en la biología tomando como base la neurociencia y la psicología. Nuestra tecnología tiene la capacidad de experimentar, de una manera determinada, estados de ánimo que hacen que se tomen unas decisiones u otras.  A través de las recompensas, unas decisiones son mas populares que otras, encaminando la estrategia a la dirección correcta implicando menos riesgos. Por lo que las emociones pueden guiar la estrategia y la selección desglosando así la toma de decisiones en múltiples pasos.

Los agentes están así dotados de una capacidad emocional para hacer más racional las decisiones, acercando ambos mundos: el del sistema límbico (la parte del cerebro a cargo de las funciones más primitivas e inmediatas) y la de las funciones del lóbulo frontal (la parte más «racional» o «humana» del cerebro).

 

* Gráfico de la plataforma Collective tools que valida la tecnología. Desde enero de 2020 hasta hoy, ha superado el retorno del S&P500 (standard índice americano).

Si bien los algoritmos del Reinforcement Learning han tenido éxito en la resolución de problemas complejos en diversos entornos simulados, su adopción en el mundo real ha sido lenta. Aquí están algunos de los desafíos que han dificultado su aceptación y cómo los resolvemos:

  • Los agentes del Reinforcement Learning necesitan amplia experiencia. 

Los métodos de Reinforcement Learning generan de forma autónoma datos de entrenamiento interactuando con el medio ambiente. Por lo tanto, la colección de tasa de datos está limitada por la dinámica del ambiente. Los entornos con alta latencia ralentizan la curva de aprendizaje. Además, en complejos entornos con espacios de alta dimensión, se necesita una amplia exploración antes de encontrar una buena solución.

Son necesarios grandes cantidades de datos. En nuestro caso pre-entrenamos a los agentes y se utilizan los datos de forma más eficiente, por lo que no necesitamos tal cantidad de información. 

  • Recompensas atrasadas

El agente de aprendizaje puede compensar recompensas a corto plazo por ganancias a largo plazo. Mientras este principio fundamental hace que el Reinforcement Learning sea útil, también lo hace difícil para que el agente descubra la póliza óptima. Esto es especialmente cierto en entornos donde el resultado es desconocido hasta que se toma un gran número de acciones secuenciales. En este escenario, asignar el crédito a una acción previa por el resultado final es desafiante y puede introducir una gran variación durante la capacitación. El juego de ajedrez es un ejemplo relevante aquí, donde el resultado del juego es desconocido hasta que ambos de los jugadores han hecho todos sus movimientos.

Nuestro agente utiliza un aprendizaje por jerarquía, que en combinación con otros elementos, hace que de forma recursiva podamos generar una estructura del mundo. Gracias a dicha estructura, podemos hacer una abstracción a alto nivel que no está disponible para muchos agentes. Esto hace que no pueda recibir recompensas largoplacistas sino de una necesidad inmediata. 

  • Falta de interpretabilidad

Una vez que un agente de Reinforcement Learning ha aprendido la política óptima y se despliega en el ambiente, toma acciones basadas en su experiencia. Para un observador externo, la razón de estas acciones podrían no ser obvias. Esta falta de interpretabilidad interfiere con el desarrollo de la confianza entre el agente y el observador. Si un observador pudiera explicar las acciones que realiza el agente de Reinforcement Learning, le ayudaría a comprender mejor el problema y descubrir las limitaciones del modelo, especialmente en los entornos de alto riesgo.

 

 

Actualmente trabajamos en la parte de investigación, bien como llamamos, el agente distribuido. Por un lado, nuestra tecnología puede mejorar la eficiencia energética porque utiliza modelos mucho más pequeños y se puede distribuir en dispositivos en función de su necesidad. En cuanto a la caja negra, conforme la gente interactúa con el sistema, pudiendo así facilitar feedback.

Os dejamos una píldora en la que nuestros expertos explican el proceso de Reinforcement Learning:

 

Fuente: Substrate AI

Abre tu cuenta en DeGiro y empieza a invertir en más de 50 mercados de todo el mundo con bajas comisiones.

 

Abre tu cuenta en DeGiro y empieza a invertir en más de 50 mercados de todo el mundo con bajas comisiones.

 

Abre tu cuenta en DeGiro y empieza a invertir en más de 50 mercados de todo el mundo con bajas comisiones.

 

Abre tu cuenta en DeGiro y empieza a invertir en más de 50 mercados de todo el mundo con bajas comisiones.

 
Telegram Noticias en tiempo real

BUSCADOR

ÚLTIMOS TITULARES

Buenas noches a todos y a Claudia en particular. Terminamos aquí las actualizaciones de hoy.

} 22:12 | 22/09/2023

Bolsa

Jornada de transición en Wall Street. Pequeñas bajadas en el SP500 y plano el Nasdaq. Tras las muy duras caídas de ayer se ha intentado rebotar pero con escaso éxito. Al final de la sesión todo se ha desvanecido. La relativa recuperación de los bonos ha ayudado, pero no han ido demasiado lejos los bonos que rebotaban más que nada por la extrema sobreventa que llevan. Pero hasta 3 miembros de la FED en el día de hoy, Collins, Bowman y Daly han competido para ver quien lo pintaba más negro en relación con los tipos de interés y así no se ha podido ir muy lejos. Además el SP500 no tiene soporte aquí, lo tiene más abajo en la zona de 4300. Ahí con la triple confluencia de la media de 200, más el retroceso de Fibonacci del 38,2% de toda la subida desde octubre, más soporte natural, ahí si que puede aspirar a un violento rebote al alza. Y ojo a lo que ha dicho Goldman esta noche, hay demasiados cortos entre las manos fuertes y el peligro de cierre de cortos masivo en un intento de “pillada” es muy alto. Los PMIs de servicios y de manufacturas han arrojado un panorama económico muy diferente y mucho peor que el mundo Disney del que habla la FED. Recordemos que estos datos difieren mucho de los de ISM, porque en PMI no se cuenta el sector público y se ponderan las respuestas por tamaño de la empresa.

} 22:07 | 22/09/2023

Bolsa

SP500 a punto de tener la peor semana en 6 meses

} 21:41 | 22/09/2023

Bolsa

UBS dice que hoy se han visto compras de hedge funds y fondos solo largos y ventas de particulares. En opciones de ODTE se ven desde hace rato bastantes compras de call

} 21:38 | 22/09/2023

Bolsa

En lo que va de mes, los precios de los futuros han descontado alrededor de 1,5 recortes de tipos, pero los precios más ajustados se produjeron antes de la publicación del FOMC del miércoles. Actualmente, los futuros fijan un tipo de interés de los fondos federales del 4,53% en julio de 2025 (algo más de tres recortes de 25 puntos básicos). Bespoke

} 21:20 | 22/09/2023

Bolsa

El sistema de la Reserva Federal de Estados Unidos recortará este año la nómina de unas 300 personas, por primera vez desde 2010. Curioso

} 21:19 | 22/09/2023

Bolsa

Pelotazo apoteósico: Un operador compró 22.000 dólares en opciones de compra out-of-the-money de 0,04 dólares sobre Splunk. Después de que Cisco anunciara la adquisición, las acciones de Splunk se dispararon, esos contratos valían más de 18,30 dólares. Eso hace que las opciones del operador valgan más de 10 millones de dólares, nada mal para una apuesta de 22.000 dólares. Ezints

} 21:16 | 22/09/2023

Bolsa

El aumento de las ventas en corto lleva a Goldman Prime a pronosticar un inminente y doloroso estrangulamiento de cortos (Zerohedge)

} 21:12 | 22/09/2023

Bolsa

El 10Y puede alcanzar el 5% si las expectativas del mercado para 2024 se ajustan a la mediana de la Fed, lo que debería elevar la prima de duración. En otras palabras, los tipos siguen siendo demasiado bajos para compensar el riesgo de duración adicional. @BillAckman

} 20:09 | 22/09/2023

Bolsa

Spotgamma dice que en esta caída un poco rara que acabamos de ver del SP500 no hay opciones ODTE involucradas como suele ser habitual. Esta vez no.

} 19:58 | 22/09/2023

Bolsa