പാമ്പ്-dqn എം.എൽ

Программирование

ML-ലെയും ട്രേഡിംഗിലെയും ആദ്യ ഘട്ടങ്ങൾക്കായി നിങ്ങൾക്ക് ആവശ്യമുള്ളത് tensorflow-js-ൽ കണ്ടെത്തി.

പ്രവർത്തനങ്ങൾക്ക് ഏജന്റിന് റിവാർഡുകളും പിഴകളും നൽകുന്ന dqn പരിശീലനമാണിത്.

https://github.com/tensorflow/tfjs-examples/tree/master/snake-dqn

https://storage.googleapis.com/tfjs-examples/snake-dqn/index.html

ചലിക്കാൻ സ്വന്തം അനുഭവത്തിൽ നിന്ന് പഠിക്കുന്ന ഒരു പാമ്പ് നമുക്കുണ്ടെന്ന് ഇത് മാറുന്നു. അവൾക്ക് ഒരു നിശ്ചിത എണ്ണം നീക്കങ്ങളുണ്ട് (തിരിയുകയോ തുടരുകയോ ചെയ്യുക) അവളുടെ ചുമതല ഫലം നേടുക എന്നതാണ്. തുടക്കത്തിൽ, പാമ്പിന് എങ്ങനെയെന്ന് അറിയില്ല, പക്ഷേ പരിശീലനത്തിനിടയിൽ, പഴങ്ങൾ കണ്ടെത്താനും ഓടിക്കാനുമുള്ള കഴിവ് അത് നേടുന്നു. ഇത് വ്യാപാരവുമായി വളരെ സാമ്യമുള്ളതാണ്, അല്ലേ?

ശരി, കുറഞ്ഞത് ഞങ്ങളുടെ ചുമതലയ്‌ക്കെങ്കിലും, ഞങ്ങൾക്ക് ഡാറ്റ പ്രവർത്തിക്കുമ്പോൾ, വാങ്ങുന്നതിനോ വിൽക്കുന്നതിനോ റോബോട്ട് ഒരു തീരുമാനം എടുക്കേണ്ടതുണ്ട്.

പാമ്പിന്റെ മൈനസ്, അത് node.js-ന് വേണ്ടി എഴുതിയതാണ്, ബ്രൗസറിൽ പരിശീലിപ്പിക്കാൻ ഞങ്ങൾക്ക് കഴിയണം (ഏത് ഉപയോക്താവിനും ഇത് ചെയ്യാൻ കഴിയും). അതിനാൽ, ക്ലയന്റിലും ഇത് ചെയ്യേണ്ടിവന്നു.

ഞാൻ പാമ്പിനെ ഒരു ചാർട്ട് സഹിതം എന്റെ പേജിലേക്ക് വലിച്ചിട്ട് ലോഞ്ച് ചെയ്യാൻ ശ്രമിച്ചു. അത് അവിടെ ഉണ്ടായിരുന്നില്ല!

പാമ്പ് തിരിച്ചടിച്ചു

ആദ്യം പാക്കേജുകൾ,

പിന്നെ വാദങ്ങൾ. (വഴി, ശരിയാക്കുന്നതിന് അടുത്തായി ഞാനും ഒരു പുൾ അഭ്യർത്ഥന നടത്തി https://github.com/tensorflow/tfjs-examples/pull/353),

തുടർന്ന് %% കൈകാര്യം ചെയ്യാത്ത നിരസിക്കൽ (ടൈപ്പ് പിശക്): ഒരു ക്ലാസിനെ%% എന്ന ഫംഗ്‌ഷനായി വിളിക്കാൻ കഴിയില്ല. ഏതാണ് ഇവിടെ നന്നാക്കുന്നത് https://github.com/tensorflow/tfjs/pull/3906/files, എന്നാൽ മുതൽ ഇതുവരെ റിലീസ് ആയിട്ടില്ല, അതിനാൽ എനിക്ക് എന്റെ കൈകൊണ്ട് പകരം വയ്ക്കേണ്ടി വന്നു. ഇവിടെ, വഴിയിൽ, പലർക്കും ഒരു പ്രശ്നമുണ്ട് https://github.com/tensorflow/tfjs/issues/3384.

പ്രായപൂർത്തിയാകാത്തവർ, fs-ൽ നിന്നുള്ള ജോലിയെ ഇൻഡെക്‌സെഡ്ഡിബി ഉപയോഗിച്ച് മാറ്റിസ്ഥാപിക്കുന്നത് പോലെ ഇതിനകം മുന്നോട്ട് പോയി. ഞാൻ ഇവിടെ ചാരപ്പണി നടത്തിയ ജോലി. ശരി, പൊതുവേ, കാർട്ട്-പോൾ തുടക്കത്തിൽ ക്ലയന്റിൽ എല്ലാം ചെയ്യാൻ എന്നെ പ്രചോദിപ്പിച്ചു.

https://github.com/tensorflow/tfjs-examples/tree/master/cart-pole

https://storage.googleapis.com/tfjs-examples/cart-pole/dist/index.html

അവസാനം, ഇതാണ് സംഭവിച്ചത്:

https://github.com/pskucherov/opexflow/pull/16/files

ശരി, യഥാർത്ഥത്തിൽ, അടുത്ത ഘട്ടം ഇതായിരിക്കും:

  1. ചാർട്ടുകൾക്ക് അനുയോജ്യം
  2. ദൃശ്യവൽക്കരണം
  3. പരമാവധി ഫലം കാണിക്കാൻ അറിയാവുന്ന ഡാറ്റയിൽ റോബോട്ടിനെ പരിശീലിപ്പിക്കുക

ക്ലയന്റിലുള്ള റോബോട്ടുകളുടെ വർക്ക്-ട്രെയിനിംഗിന്റെ ഒരു വീഡിയോ ഡെമോ ചുവടെയുണ്ട്. എന്നെങ്കിലും അവർ എനിക്ക് പകരം Sberbank ഫ്യൂച്ചറുകളും ട്രേഡ് ചെയ്യും.

pskucherov
Rate author
Add a comment