在我们的最终版本中,我们将应用 pix2code 论文中生成的 Bootstrap 网站的一个数据集。经由过程应用 Twitter 的 Bootstrap,我们可以将 HTML 和 CSS 相结合,并且缩减词汇表的大年夜小。
在这种情况下,我们就有三个标签特点。是以,我们获得了雷同数量的图像特点和标签特点。
所有的句子都经由填充,以便创建三个标签特点。因为我们已经预处理过了图像特点,如今我们可认为每个标签特点添加一个图像特点。
图片到编码收集其实就是 Image Caption 模型。 但即使我已经意识到了这点,我仍然忽视了很多有关 Image Caption 的论文,只是因为认为它们没有那么酷。当我发明到这点后,我加快了对问题的懂得。
为了拿到最终的分数,你须要将获得的数字都乘以 25%,(4/5)*0.25 + (2/4)*0.25 + (1/3)*0.25 + (0/2)*0.25 = 0.2 + 0.125 + 0.083 + 0 = 0.408。乞降的结不雅再乘以句子长度的处罚值。因为我们例子中的句子长度是精确的,所以乞降的结不雅直接就是最终的结不雅。
这里,我们应用图像标签特点组合来猜测下一?标签。
鄙人面的例子中,我们应用三个图像标签特点组合来输出下一?标签特点。
请留意,这里 LSTM 层的 sequence 被设置为 false。由此,LSTM 层返回的是一个猜测的特点,而不是输入序列的长度。在我们的例子中,这将是下一?标签的特点,包含了最终猜测所需的信息。
最终的猜测
密集层像传统前馈神经收集那样,将下一?标签特点中的 512 个值与 4 个最终猜测连接起来。假设我们的词汇表中有四个词:start、hello、world 和 end。
词汇猜测可所以 [0.1,0.1,0.1,0.7]。密集层中的 softmax 激活函数分布概率是 0 到 1,所有猜测的总和等于 1。在这种情况下,它猜测第 4 个单词会是下一?标签。 然后,将独热编码 [0,0,0,1] 转换为映射值,比如“end”。
推荐阅读
全平易近充电节 | 3月26日~30日 2000位IT行业拭魅战专家邀请你一路充电进修!根据筹划,北京市组织扶植了首个占地200余亩的海淀主动驾驶封闭测试场地,测试场包含城市、村庄的多种门路类型,具有丰富的测>>>详细阅读
地址:http://www.17bianji.com/lsqh/40844.html
1/2 1