开启辅助访问设为首页收藏本站切换到窄版

机器人与人工智能爱好者论坛»论坛 › 人工智能 › 机器学习 › 《数学之美》读书笔记（二）——统计语言模型

发新帖

查看: 15072|回复: 0

上一主题

下一主题

《数学之美》读书笔记（二）——统计语言模型

小猪猪de孤独

10 主题	13 帖子	107 积分

Rank: 7 Rank: 7 Rank: 7

积分: 107

发消息

电梯直达

跳转到指定楼层

楼主

发表于 2015-12-21 21:47:38 | 只看该作者回帖奖励

回帖奖励

|倒序浏览 |阅读模式

附件是思维导图版本的笔记，喜欢的可以下载统计语言模型 All + All -

统计语言模型

贾里尼克出发点
- 句子合理
  - 是
    - 出现的概率大
  - 否
    - 出现的概率小
- 严格的描述
  - 有意义的句子
    - S
  - 特定序列排列的词
    - W1,W2,W3,…,Wn
  - 句子长度
    - n
  - S在文本中出现的可能性
    - P(S)
      - =
        P(W1,W2,W3,…,Wn)
        =
        + - P(W1)·P(W2|W1)·P(W3|W1,W2)····P(Wn|W1,W2,···,Wn-1)
        词Wn的出现概率取决于它前面的所有词
    - P(Wn|W1,W2,···,Wn-1)条件概率估算
      - 马尔可夫
        方法
        马尔可夫假设
        假设任意词Wi出现的概率只和它前面的词Wi-1有关
        
        P(S)
        =
        P(W1)·P(W2|W1)·P(W3|W2)···P(Wi|Wi-1)···P(Wn|Wn-1)
        对应
        二元模型
    - P(Wi|Wi-1)
      - =
        P(Wi-1,Wi)/P(Wi-1)
        有了大量机读文本
        假设语料库大小为#
        得到
        相对频度
        f((Wi-1,Wi))
        =
        #(Wi-1,wi)/#
        
        f(Wi-1)
        =
        #(Wi-1)/#
        
        根据大数定理
        统计量足够
        相对频率就等于概率
        P(Wi-1,Wi)
        ≈
        #(Wi-1,wi)/#
        
        P(Wi-1)
        ≈
        #(Wi-1)/#
      - ≈
        #(Wi-1,wi)/#(Wi-1)
初衷
- 解决
  - 语音识别问题

统计语言模型.pdf

98.75 KB, 下载次数: 4, 下载积分: 金钱 -1

——以上整理来自：小猪猪

回复

使用道具举报

发新帖

站长推荐 /1

|Archiver|手机版|小黑屋|陕ICP备15012670号-1

GMT+8, 2026-5-3 11:44 , Processed in 0.066038 second(s), 28 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表