snake-dqn com a camí cap a ML

Программирование

Trobeu a tensorflow-js el que necessiteu per als primers passos en ML i comerç.

Es tracta d’entrenament dqn, on l’agent rep recompenses i penalitzacions per accions.

https://github.com/tensorflow/tfjs-examples/tree/master/snake-dqn

https://storage.googleapis.com/tfjs-examples/snake-dqn/index.html

Resulta que tenim una serp que aprèn de la seva pròpia experiència a moure’s. Té un cert nombre de moviments (girar o continuar) i la seva tasca és arribar al fruit. Inicialment, la serp no sap com fer res, però en el curs de l’entrenament adquireix la capacitat de trobar fruits i esquivar. Molt semblant al comerç, no?

Bé, almenys per a la nostra tasca, quan tenim dades en execució i el robot ha de prendre la decisió de comprar o vendre.

L’inconvenient de la serp és que s’ha escrit per a node.js, i hem de poder entrenar en un navegador (perquè qualsevol usuari ho pugui fer). Per tant, va ser necessari començar el mateix al client.

Vaig portar la serp tal com està a la meva pàgina amb el gràfic i vaig intentar començar-la. No va ser així!

La serp va resistir de totes les maneres possibles,

primer paquets,

després arguments. (per cert, també vaig fer una sol·licitud d’extracció al costat de la correcció https://github.com/tensorflow/tfjs-examples/pull/353),

després %% Rebuig no controlat (TypeError): No es pot cridar una classe com a funció %%. Que es repara aquí https://github.com/tensorflow/tfjs/pull/3906/files, però des que encara no hi ha cap llançament, llavors vaig haver de substituir les meves mans. Aquí, per cert, molta gent té un problema https://github.com/tensorflow/tfjs/issues/3384.

Després hi havia els menors, com substituir fs per indexeddb. La feina amb la qual vaig espiar aquí, per cert. Bé, en general, cart-pole inicialment es va inspirar per fer-ho tot sobre el client.

https://github.com/tensorflow/tfjs-examples/tree/master/cart-pole

https://storage.googleapis.com/tfjs-examples/cart-pole/dist/index.html

al final, això és el que va passar:

https://github.com/pskucherov/opexflow/pull/16/files

Bé, això és tot, la següent etapa serà:

  1. Ajust als gràfics
  2. Visualització
  3. Entrena un robot amb dades conegudes per mostrar el resultat màxim

A continuació, al vídeo, hi ha una demostració de l’entrenament del treball de robots al client. Algun dia també negociaran futurs de Sberbank en comptes de mi.

pskucherov
Rate author
Add a comment