机器人与人工智能爱好者论坛

 找回密码
 立即注册
查看: 11690|回复: 0
打印 上一主题 下一主题

《数学之美》读书笔记(二)——统计语言模型

[复制链接]

10

主题

13

帖子

107

积分

版主

Rank: 7Rank: 7Rank: 7

积分
107
QQ
跳转到指定楼层
楼主
发表于 2015-12-21 21:47:38 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
附件是思维导图版本的笔记,喜欢的可以下载 统计语言模型 All + All -

统计语言模型

  • 贾里尼克出发点
    • 句子合理
        • 出现的概率大
        • 出现的概率小
    • 严格的描述
      • 有意义的句子
        • S
      • 特定序列排列的词
        • W1,W2,W3,…,Wn
      • 句子长度
        • n
      • S在文本中出现的可能性
        • P(S)
          • =
            • P(W1,W2,W3,…,Wn)
              • =
                • + - P(W1)·P(W2|W1)·P(W3|W1,W2)····P(Wn|W1,W2,···,Wn-1)
                  • 词Wn的出现概率取决于它前面的所有词
        • P(Wn|W1,W2,···,Wn-1)条件概率估算
          • 马尔可夫
            • 方法
              • 马尔可夫假设
                • 假设任意词Wi出现的概率只和它前面的词Wi-1有关
              • P(S)
                • =
                  • P(W1)·P(W2|W1)·P(W3|W2)···P(Wi|Wi-1)···P(Wn|Wn-1)
                    • 对应
                      • 二元模型
        • P(Wi|Wi-1)
          • =
            • P(Wi-1,Wi)/P(Wi-1)
              • 有了大量机读文本
                • 假设语料库大小为#
                  • 得到
                    • 相对频度
                      • f((Wi-1,Wi))
                        • =
                          • #(Wi-1,wi)/#
                      • f(Wi-1)
                        • =
                          • #(Wi-1)/#
                • 根据大数定理
                  • 统计量足够
                    • 相对频率就等于概率
                      • P(Wi-1,Wi)
                          • #(Wi-1,wi)/#
                      • P(Wi-1)
                          • #(Wi-1)/#
            • #(Wi-1,wi)/#(Wi-1)
  • 初衷
    • 解决
      • 语音识别问题

统计语言模型.pdf

98.75 KB, 下载次数: 4, 下载积分: 金钱 -1

——以上整理来自:小猪猪
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

QQ|Archiver|手机版|小黑屋|陕ICP备15012670号-1    

GMT+8, 2024-5-17 00:32 , Processed in 0.104700 second(s), 30 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表