gym-tic-tac-toe/examples/random_tic_tac_toe.py

import gym
import numpy as np
import gym_tic_tac_toe
import random

env = gym.make('tic_tac_toe-v0')

num_episodes = 20
num_steps_per_episode = 200

collected_rewards = []
for i in range(num_episodes):
    s = env.reset()
    print (s)
    print ("starting new episode")
    env.render()
    print ("started")
    total_reward = 0
    done = False
    om = 1
    for j in range(num_steps_per_episode):
        moves = env.move_generator()
        print ("moves: ", moves)
        if (not moves):
            break
        m = random.choice(moves)
        print ("m: ", m)
        a = env.action_space.sample()
        print (a[0])
        #sm = s['on_move']
        #print (sm)
        a = tuple((om, a[1]))
        s1, reward, done, _ = env.step(m)
        om = -om
        env.render()
        total_reward += reward
        s = s1
        if done:
            break
    collected_rewards.append(total_reward)
    print ("total reward ", total_reward, " after episode: ", j)
print ("average score: ", sum(collected_rewards) / num_episodes)
print("#########")
Add a usage example 2017-04-01 14:01:16 +04:00			`import gym`
			`import numpy as np`
Add basic TTT 2017-04-04 01:51:35 +04:00			`import gym_tic_tac_toe`
Pick a move from the generated ones rather than from the whole action space 2017-04-04 19:46:38 +04:00			`import random`
Add a usage example 2017-04-01 14:01:16 +04:00
Add basic TTT 2017-04-04 01:51:35 +04:00			`env = gym.make('tic_tac_toe-v0')`
Add a usage example 2017-04-01 14:01:16 +04:00
			`num_episodes = 20`
			`num_steps_per_episode = 200`

			`collected_rewards = []`
			`for i in range(num_episodes):`
			`s = env.reset()`
Add basic TTT 2017-04-04 01:51:35 +04:00			`print (s)`
Add a usage example 2017-04-01 14:01:16 +04:00			`print ("starting new episode")`
			`env.render()`
			`print ("started")`
			`total_reward = 0`
			`done = False`
Add basic TTT 2017-04-04 01:51:35 +04:00			`om = 1`
Add a usage example 2017-04-01 14:01:16 +04:00			`for j in range(num_steps_per_episode):`
Pick a move from the generated ones rather than from the whole action space 2017-04-04 19:46:38 +04:00			`moves = env.move_generator()`
			`print ("moves: ", moves)`
			`if (not moves):`
			`break`
			`m = random.choice(moves)`
			`print ("m: ", m)`
Add basic TTT 2017-04-04 01:51:35 +04:00			`a = env.action_space.sample()`
			`print (a[0])`
			`#sm = s['on_move']`
			`#print (sm)`
			`a = tuple((om, a[1]))`
Pick a move from the generated ones rather than from the whole action space 2017-04-04 19:46:38 +04:00			`s1, reward, done, _ = env.step(m)`
Add basic TTT 2017-04-04 01:51:35 +04:00			`om = -om`
Add a usage example 2017-04-01 14:01:16 +04:00			`env.render()`
			`total_reward += reward`
			`s = s1`
			`if done:`
			`break`
			`collected_rewards.append(total_reward)`
			`print ("total reward ", total_reward, " after episode: ", j)`
			`print ("average score: ", sum(collected_rewards) / num_episodes)`
			`print("#########")`