简单题[期望DP]-白红宇

简单题[期望DP]

阅读量：4615 次

发布时间：2019-06-09

本文共 635 字，大约阅读时间需要 2 分钟。

\(\mathcal{Description}\)

桌面上有R张红牌和B张黑牌，随机打乱顺序后放在桌面上，开始一张一张地翻牌，翻到红牌得到1美元，黑牌则付出1美元。可以随时停止翻牌，在最优策略下平均能得到多少钱。

\(\mathcal{Solution}\)

设\(f[i][j]\)表示有\(i\)张红牌，\(j\)张黑牌的期望收益

考虑翻一张牌，有两种情况

有\(\frac{i}{i+j}\)的概率翻到红牌，此后就只有\(i-1\)张红牌，\(j\)张黑牌

有\(\frac{j}{i+j}\)的概率翻到黑牌，此后就只有\(i\)张红牌，\(j-1\)张黑牌

需要注意的是，不要忘了翻开的牌的贡献

翻开一张牌后，该颜色牌数目就少了一张

所以有

\(f[i][j]=\frac{i}{i+j}(f[i-1][j]+1)+\frac{j}{i+j}(f[i][j-1]-1)\)

由于是最优策略，所以咱是不可能赔钱的

\(f[i][j]=max(0,\frac{i}{i+j}(f[i-1][j]+1)+\frac{j}{i+j}(f[i][j-1]-1))\)

初值\(f[0][1]=0,f[1][0]=1\)，答案为\(f[R][B]\)

应正向循环

本篇博客亦被收进

如有哪里讲得不是很明白或是有错误，欢迎指正
如您喜欢的话不妨点个赞收藏一下吧

转载于:https://www.cnblogs.com/Morning-Glory/p/11226477.html

你可能感兴趣的文章

(C#) Encoding.

查看>>

BZOJ 2154: Crash的数字表格 [莫比乌斯反演]

SQL函数——LENGTH()和LENGTHB()

查看>>

vim - manual -个人笔记

查看>>

详解Javascript中prototype属性(推荐)

查看>>

angularjs实现首页轮播图

查看>>

Git 对象和checkout 和stash的笔记

查看>>

团队项目总结2-服务器通信模型和顺序图

查看>>

hdu 1085 Holding Bin-Laden Captive!

各浏览器对 onbeforeunload 事件的支持与触发条件实现有差异

查看>>

PHP中获取当前页面的完整URL

查看>>