【step,off什么意思】“开快点”千万别说"drive,faster",这样说才地道

step off什么意思

“开快点”千万别说"drive faster",这样说才地道

   


steponit开快点


floorit把油门踩到底,提速,以最快的速度走


step除了脚步,还可以作动词,意思就是踩。steponit里的it指代的就是汽车油门。如果我们对司机说steponit,他就知道需要开快点了,类似的表达还有floorit,意思就是把油门踩到底。


例句:

Wearegoingtobelateforwork,couldyousteponit?

我们上班快迟到了,你能开快点吗?



hitthegas开快点


gas是汽油的意思,所以我们也可以把hitthegas理解为踩油门,所以hitthegas也表示开快点。赶时间的时候,我们可以直接对司机说hitthegas。


例句:

Hitthegas,theplaneisabouttotakeoff.

开快点,飞机要起飞了。



slowdown减速


出门在外我们难免会遇上一些车速很快的司机,坐车时让人胆战心惊。用英语提醒他们减速,我们就要用到slowdown这个短语了。

slowdown有减速和放松的意思,如果想提醒司机开慢点,我们直接说slowdown就可以了。


例句:

Pleaseslowdownalittle,mydaughterisfeelingcarsicknow.

请开慢一点,我女儿现在有点晕车。



【在这里插一个小福利:在公众号“必克英语spiiker”后台回复“免费资源”就可以免费领取20本英语名著电子版哟~】


快一点的英文表达

很多人在工作和生活中都有拖延症,不知道同学们身边有没有时间观念比较差的朋友呢?催他们快点可不要老说hurryup哦,来试试下面这些表达吧。


chopchop快点

getawriggleon动起来

getamoveon抓紧时间

gofaster/speedup快点儿;加快速度


例句:

Getamoveon,wewillbelatefortheannualmeeting.

抓紧时间啊,年会我们要迟到了。




打车必备英文表达


Wherecanwecatchataxi?

我们到哪儿去叫一辆出租车?


Pleasestopatthenextintersection.

到了下一站就停。


Whereisyourdestination?

你的目的地是哪?


Canyouopenthetrunk?

你能打开后备箱吗?


Pleasehelpmetoputtheluggageinthetrunk,thanks.

请帮我把行李放到后备箱,谢谢。


Howsoonwillwegettothedestination?

我们到达终点还需要多长时间?

Canyousetmedownhere?

你能让我在这儿下车吗?


Howmuchisthefareplease?

请问车费是多少?


我是@浅墨之道一个知乎高质量答主,

点击横线字,关注@浅墨之道,主页还有超多通俗易懂的学习货哦!不讲海涩理论,不扯没用的废话,直击点,让你满而归!

或者去公众号搜索「必克英语spiiker」查看更多英语资料。时间成本高,自己动手。全网已输出百万字硬核干货,长期更新读书、写作、思维、自我提升等干货,可以自己去多翻翻旧文,绝对不会让你失望哟!一起读书学习吧!(^_^)/~~拜拜

   

   


强化学习-n步自举

   写在前面,相关blog:

在之前的学习中,我们学习了MC方法和TD方法,其中TD方法严格说属于TD(0)方法。

如果我们从采样回报与估计回报的角度来看,MC方法与TD(0)方法分别处于两个极端。MC方法采样全部的回报,不使用自身值函数的预测;TD(0)方法只进行单步采样,然后使用值函数预测之后的回报。最好的方法就是这两种的结合,TD(0)属于单步自举,自举最好发生在一段时间之后,n-步的方法就是我们在多步之后实现自举。

n-步自举和资格迹有很大的关联,一般使用n-步自举作为资格迹的入门介绍。

我们仍然按照广义策略迭代的步骤来分析,先解决预测问题,再解决控制问题。

1.n-stepTD预测

这就是n-stepTD的思想,看一下示意图:类算法。MC方法的更新依赖从当前状态之后直到终止状态的所有观测,需要仿真完一条完整的轨迹才能进行更新;TD(0)方法仅观测一步nn,然后就使用下一个状态的估计值来替代之后的累计回报。在MC与TD(0)方法之间,我们可以使用2步、3步...多步来进行观测,再使用之后的状态估计值替代之后的累计回报。

这就是$n$-stepTD的思想,看一下示意图:

n


理解了n-stepTD的思想,我们来分析一下更新目标。的许多种就是n-stepTD方法,其意义为我们在当前状态之后,采样了n个后续的R,然后再使用自举。TD(0)仅采样一个Rn,所有TD(0)也被成为one-stepTD方法。

理解了$n$-stepTD的思想,我们来分析一下更新目标。

对于一条轨迹S_t,R_{t+1},S_{t+1},R_{t+1},dots,R_T,S_T,MC方法的更新目标为:

G_tdoteqR_{t+1}+gammaR_{t+2}+gamma^2R_{t+3}+dots+gamma^{T-t-1}R_T ag{1-1}

TD(0)的更新目标为:

G_{t:t+1}doteqR_{t+1}+gammaV_t(S_{t+1}) ag{1-2}

相比于MC方法,TD(0)使用gammaV_t(S_{t+1})代表实际的采样gammaR_{t+2}+gamma^2R_{t+3}+dots+gamma^{T-t-1}R_T,因此,进行递推,2-stepTD方法就是采样2步回报:

G_{t:t+2}doteqR_{t+1}+gammaR_{t+2}+gamma^2V_{t+1}(S_{t+2}) ag{1-3}

再继续扩展到$n$步,更新为:

G_{t:t+n}doteqR_{t+1}+gammaR_{t+2}+dots+gamma^nV_{t+n-1}(S_{t+n}) ag{1-4}

如果t+n>T,那么相当于完全采样,与MC方法等价。

如果使用n-stepTD方法,有一个必要的条件就是能够观测到R_{t+n}才可以,这与MC方法在一个episode之后更新的原理是一样的。我们看一下n-stepTD方法的更新公式为:

V_{t+n}(S_t)doteqV_{t+n-1}(S_t)+alpha[G_{t:t+n}-V_{t+n-1}(S_t)],0leqtltT ag{1-5}

在获取1-5中值函数的更新公式,我们看一下n-stepTD的预测代码:



伪代码中核心公式就是公式1-5的更新,但是一个比较绕的地方就是时间步的确定与计算。

使用n-stepTD后,我们来看一下其重要的性质:

max_{s}left|mathbb{E}_{pi}left[G_{t:t+n}|S_{t}=s ight]-v_{pi}(s) ight|leqgamma^{n}max_{s}left|V_{t+n-1}(s)-v_{pi}(s) ight| ag{1-6}

公式1-6中,v_{pi}(s)是状态s的真实值,说明在最坏的情况下,使用n-step回报得到的估计误差是原始误差的gamma^n倍,这就是误差缩减特性。

通过实际使用中,MC、TD(0)、$n$-stepTD方法的对比,证明在n取中间值时,误差最小,这说明MC与TD(0)处在两个极端,比较合适的还是n-stepTD方法。

2.n-stepSarsa

我们回顾一下在Sarsa算法中,值函数的更新公式:

Q(S_t,A_t)leftarrowQ(S_t,A_t)+alphaleft[{R_{t+1}+gammaQ(S_{t+1},A_{t+1})}-Q(S_t,A_t)) ight] ag{2-1}

Sarsa的更新按照TD(0)的方式进行,我们将更新目标换成n-stepTD估计,就是n-stepSarsa算法。

我们列出n-stepTD的更新目标的动作值函数版本:

G_{t:t+n}doteqR_{t+1}+gammaR_{t+2}+dots+gamma^nQ_{t+n-1}(S_{t+n},A_{t+n}),quadnge1,0letltT-n ag{2-2}

公式2-2与公式1-4几乎完全一样,我们使用公式2-2的更新目标替换公式2-1中的更新目标:

Q_{t+n}(S_t,A_t)leftarrowQ_{t+n-1}(S_t,A_t)+alphaleft[{G_{t:t+n}}-Q_{t+n-1}(S_t,A_t) ight] ag{2-3}

公式2-3就是n-stepSarsa算法的核心。

我们看一下其伪代码(预测):



自然地,之前还提到过Sarsa的其他版本,如期望Sarsa,按照Sarsa的扩展方法,我们同样可以把期望Sarsa扩展到n-step期望Sarsa:

G_{t:t+n}doteqR_{t+1}+gammaR_{t+2}+dots+gamma^nar{V}{t+n-1}(S{t+n}),quadnge1,0letltT-n ag{2-4}

公式2-4中,ar{V}t(s)=mathbb{E}pi[Q_t(s,a)]=sum_api(a|s)Q_t(s,a),求取期望的步骤仍然在。

经过上述两种算法的学习,我们看一下相关备份图:



3.n-stepoff-policy

第2小节我们把n-step的思想使用在Sarsa上,即一个在策略上面,如果现在的算法是off-policy,我们有没有可能使用呢?

我们先来分析一下,off-policy涉及到两个策略,一个是目标策略,也就是我们需要优化的策略;还有一个是行为策略,指的是实际进行决策产生轨迹的策略。一般是利用行为策略产生的轨迹进行目标策略的学习,既然是使用其它策略的轨迹学习,在之前的学习中,就涉及到重要性采样比的问题,因此,在off-policy上使用n-step,难点也是重要性采样比。

使用重要性采样比之后的,策略更新公式为:

V_{t+n}(S_t)doteqV_{t+n-1}(S_t)+alpha ho_{t:t+n-1}left[G_{t:t+n}-V_{t+n-1}(S_t) ight],0letltT ag{3-1}

公式3-1中,相比于Sarsa增加的是重要性采样比 ho,其定义为:

ho_{t:h}doteqprod_{k=t}^{min(h,T-1)}frac{pi(A_k|S_k)}{b(A_k|S_k)} ag{3-2}

公式3-2相当于计算采样的轨迹中,每个动作的采样比,然后进行相乘。

当pi与b完全一样时,就退化成on-policy的形式,说明on-policy只是off-policy的一种形式,我们将公式3-1进行改造,得到off-policy下的n-stepSarsa算法:

Q_{t+n}(S_t,A_t)doteqQ_{t+n-1}(S_t,A_t)+alpha{ ho_{t+1:t+n}}left[G_{t:t+n}-Q_{t+n-1}(S_t,A_t) ight],0letltT ag{3-3}

相比于公式3-1,状态值函数变为动作值函数,原因是在不知道环境模型的情况下,我们没办法通过状态值函数获取到策略,相反,动作值函数却可以。

得到了off-policy下的n-stepSarsa算法的核心更新公式,我们看一下:



4.n-step备份树算法(off-policy):无重要性采样

通过标题可知n-step备份树算法属于off-policy,但是却不使用重要性采样,到目前为止,我们所有的off-policy算法都使用重要性采样来作为行为策略到目标策略的桥梁,但是备份树由于特殊的备份操作,并不需要,我们来具体看一下:

备份树算法的主要思想:

树结构在树结构上执行备份操作:通过后续状态的值更新当前状态的值,叫做备份我们首先看一下3-step备份树算法的备份图:



通过备份图我们可以看到,在每一个状态中,算法没有仅取当前选择的动作,而是将所有可能的动作都列出,然后从选择的动作再向下延伸。备份图中有采样的节点,也包括没有采样到的节点,最终构成树结构。

备份到底是怎样定义的呢,我们来看一下具体公式:

对于第一步的备份算法,即备份图中第一层,更新目标为:

G_{t:t+1}=R_{t+1}+gammasum_api(a|S_{t+1})Q_t(S_{t+1},a),qquadtltT-1 ag{4-1}

公式4-1中,可以看到相当于考虑了所有的动作值。

对于二步备份算法,即第一层+第二层,更新目标为:

G_{t:t+2}=R_{t+1}+gammasum_{a eqA_{t+1}}pi(a|S_{t+1})Q_{t+1}(S_{t+1},a)+gammapi(A_{t+1}|S_{t+1})left(R_{t+2}+gammasum_api(a|S_{t+2})Q_{t+1}(S_{t+2},a) ight)=R_{t+1}+gammasum_{a eqA_{t+1}}pi(a|S_{t+1})Q_{t+1}(S_{t+1},a)+gammapi(A_{t+1}|S_{t+1}){G_{t+1:t+2}} ag{4-2}

其中,tltT-2,二步算法与一步算法很类似,相当于权重变为第一步的权重乘以当前的概率。

我们总结出n-step备份树算法的迭代公式为:

G_{t:t+n}=R_{t+1}+gammasum_{a eqA_{t+1}}pi(a|S_{t+1})Q_{t+n-1}(S_{t+1},a)+gammapi(A_{t+1}|S_{t+1}){G_{t+1:t+n}} ag{4-3}

其中,tltT-1,ngeq2。

有了公式4-3,我们可以按照n-stepSarsa的更新算法格式:

Q_{t+n}(S_t,A_t)doteqQ_{t+n-1}(S_t,A_t)+alphaleft[G_{t:t+n}-Q_{t+n-1}(S_t,A_t) ight] ag{4-4}

作为备份树算法的更新公式。

下面来看伪代码:



在备份树算法中,使用完全随机的决策作为行为策略,肯定是off-policy无疑了。

个人理解,备份树的备份操作实际上和重要性采样的作用是一样的,只不过备份树使用概率的方法来作为重要性采样中的比值。

5.总结

在上述学习中,一共学习了3种算法:n-stepSarsa算法、off-policyn-stepSarsa算法、n-step备份树算法,他们实际上都是n-step思想的运用。

n-step处于TD(0)与MC方法思想的中间,相当于结合MC方法与TD(0)方法。有时候部分采样+部分自举的结果往往更好。

上述内容主要参考《ReinforcementLearningAnIntroduction》一书。


step off 有没有放弃意思

   没有
1。结婚
2。死

step off 有没有放弃意思

   stepoff
1离开2步测(长度)3开始行军;起跑

STEP out/off 分别什么意思

   是调试界面里的词语了:)~
stepoff=stepover直接出函数执行结果
stepout:跳过当前函数
还有:
stepin:跳进当前函数
即:
不进入函数执行,直接出函数执行结果:stepover
进入函数执行:stepin
进入函数后,未执行完要出来:stepout

step off 有没有放弃意思

   有是有“放弃”的意思,但在正规书面表达不大用,如:Icouldnevergetoffthisship.Atbest,Icanstepoffmylife.我永远无法放弃这艘船,不过幸好,我可以放弃我的生命。
但是这个意思很少见,字典上一般都没有,我只是有一次看见过,一般它都解释为“步测”,
PS:一般都用stepup表示退出,放弃的意思

免责声明:本站部分内容转载于网络,其中内容仅代表作者个人观点,与本网无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。若有来源标注错误或侵犯了您的合法权益,请作者持权属证明与本网联系,我们将及时更正、删除,谢谢。

本站联系邮箱:douxingdu02@163.co m