theReward = currentReward;
// Se crea una observacion(estado) formado
// por un vector de 2 entero que denotan
// el estado actual y el numero de estados totales
// que hay actualmente
Observation returnObservation = new Observation(2, 0, 0);
// Se asigna a la posicion 0 el estado actual
returnObservation.intArray[0] = currentState;
// Se asigna a la posicion 1 el numero de estados
returnObservation.intArray[1] = numStates;
// Se crea un clase Reward_observation_terminal