李开复:从1983到2017,我的幸运与遗憾

  • 时间:
  • 浏览:1
  • 来源:5分6合_5分6合平台_5分6合网投平台

  文/李开复

  1

  今天跟当另一个人歌词 歌词 歌词 儿讲个故事。

  1983-1988年,我正在卡内基·梅隆大学读计算机博士。

  我正忙着暑期教书,秋天投身奥赛罗人机博弈(黑白棋游戏,那是机器第一次真正意义上打败人类冠军的比赛)。

  我的导师瑞迪教授(Raj Reddy,图灵奖得主、卡内基梅隆大学计算机系终身教授、美国工程院院士)从美国国防部得到了60 万美元的经费,用来做不指定语者、大词库、连续性的语音识别。

  也只是 说,他希望机器能听懂任何人的声音,有后来 还我太大 懂上千个词汇,懂当另一个人歌词 歌词 歌词 自然连续说出的每语句。

  你累似 3个大大问题有的是 当时无解的大大问题。

  而瑞迪教授大胆地甩掉项目,希望同时处理你累似 3个大大问题。他在全美招聘了60 多位教授、研究员、语音学家、学生、程序池池员,以启动你累似 有史以来最大的语音项目。

  我也在这60 人名单之内。

  当时的科研背景是,业界不可能 有累似 今天层厚学习的算法,但总爱必须实现数据标准化,数据量也匮乏够大。

  美国几大语音识别实验室(如MIT、 CMU、 SRI、 IBM、贝尔实验室)有的是 各用各的数据库,测试数据不同,训练数据不同,使用的语言模型不同,测试的词汇量只是 同。全都都各称业界第一,当另一个人歌词 歌词 歌词 儿莫衷一是。

  而每个大公司有的是 被委托人的商业需求,比如说在语音识别方面,当年做打字机的IBM想做语音打字机,垄断美国电信的AT&T要求贝尔实验室识别电话号码,全都大公司并必须动力来帮助小公司或学校。而小公司和学校,往往必须资源做些较小的数据集,结果通常只是 如大公司的好。

  不仅必须,数据不标准对AI研究而言是致命的,最后由于全都大大问题,包括:

  1、不可能 测试语料库不同,最后识别结果,当另一个人歌词 歌词 歌词 儿无法复制,也无法验证。彼此不认可,有后来 不可能 数据必须打通,算法就更我太大 可能 打通了。

  2、不可能 每家做的领域不同,最后的结果有的是 可比。某些领域词汇量小,比较容易,有后来 做出结果只是 可能 必须通用。某些领域词汇量大,有后来 约束全都,全都能说的内容太大,由于比较容易识别,只是 能通用。

  3、不可能 每家训练集不一样大,而训练集越大,一般结果越好。全都,有不可能 结果做的好,被认为并有的是 靠算法,只是 靠数据量大。

  4、对于学术单位来说,最大的大大问题来自于必须足够的资源(也必须兴趣)分派、清洗、标注极少量的语料。对于小公司来说,语料和计算力有的是 大大问题。

  最后,瑞迪教授计划采用“专家系统”来完成项目,不可能 你累似 法律最好的办法 我太大 的数据有限。

  专家系统是早期人工智能的3个重要分支,你都可以把它看作是一类具有专门知识和经验的计算机智能程序池池系统,一般采用人工智能中的知识表示和知识推理技术来模拟通常由领域专家我太大 处理的复杂性大大问题。

  但我不认同。

  2

  事先参加过的奥赛罗的人机博弈,我你都可以对统计概念有了充分的理解,我对瑞迪教授的研究法律最好的办法 产生动摇。

  我相信建立大型的数据库,有后来 对大的语音数据库进行分类,有不可能 处理专家系统必须处理的大大问题。

  另外,在1985年,美国标准局 (NationalInstitute of Standards and Technology)也意识到数据不标准会影响科研进步。全都在语音识别大大问题上,标准局设定了标准的语音和语言的训练集、测试集。要求每个学校的每个团队都用同样的训练集来训练模型,还我太大 被委托人调好系统参数,比赛最后一天当另一个人歌词 歌词 歌词 儿拿到数据,有一天时间跑出结果,当另一个人歌词 歌词 歌词 儿评比。

  我从你累似 标准数据集和测试看过不可能 。

  再三思考后,我决定鼓足勇气,向瑞迪教授直接表达我的想法。我对瑞迪说:“只是 转投统计学,用统计学来处理你累似 ‘不特定语者、大词汇、连续性语音识别’。”

  我以为瑞迪会某些失望,没想到他某些都必须生气,他轻轻地问:“那统计法律最好的办法 何如处理这三大大问题图片呢?”

  瑞迪教授耐心地听完我激情的回答后,用他那永远温和的声音谁能告诉我:“开复,你对专家系统和统计的观点,我是不同意的,有后来 我你都可以支持你用统计的法律最好的办法 去做,不可能 我相信科学必须绝对的对错,当另一个人歌词 歌词 歌词 儿有的是 平等的。有后来 ,我更相信3个有激情的人是不可能 找到更好的处理方案的。”

  那一刻,我的感动无以伦比。不可能 对3个教授来说,学生要用被委托人的法律最好的办法 作出3个与他唱反调的研究。教授不但必须动怒,还给予充分的支持,这在全都地方是不可想象的。

  统计学我太大 大数据库,当另一个人歌词 歌词 歌词 儿何如我太大 建立起大的数据库呢?

  瑞迪教授看过我愁眉不展的样子,再一次给了我支持。你说歌词 ,“开复,实在说我还是对你的研究法律最好的办法 有所保留,有后来 ,在科学的领域里,实在也无所谓老师和学生的区别,当另一个人歌词 歌词 歌词 儿有的是 面临你累似 3个大大问题的攻克者,全都,不可能 你真的我太大 数据库,必须,我你都可以去说服政府帮你建立3个大的数据库吧!”

  瑞迪教授后来说服了美国政府部门和美国标准局分派并提供了极少量数据。我用美国标准局提供的标准大数据,跟多家拿国家钱的机构数据,后来某些不拿国家钱的单位(如:IBM,AT&T)也参与进来,我可使用的数据越滚越大。

  除了大数据,统计学的法律最好的办法 还我太大 非常快的机器,瑞迪教授又我你都可以购买了最新的Sun 4机器。此后每次有新的机器,他有的是说:“先问问开复要何必 。” 做论文的两年多,我大约 花了他几十万美元的经费。

  瑞迪教授的宽容再次我你都可以感觉到你累似 伟大的力量,这是你累似 自由和信任的力量。

  3

  在导师的支持下,我始于英文了疯狂的科研工作。

  当时,我带着另一位学生同时用统计的法律最好的办法 做语音识别。同时,某些60 多人用专家系统做同样的大大问题。从法律最好的办法 上来说,当另一个人歌词 歌词 歌词 儿在竞争,有后来 在瑞迪教授的领导下,当另一个人歌词 歌词 歌词 儿分享一切,当另一个人歌词 歌词 歌词 儿用同样的样本训练和测试。

  在1986年底,我的统计系统和当另一个人歌词 歌词 歌词 的专家系统达到了大约 一样的水平,40%的辨认率。这实在还是删改必须用的系统,但毕竟是学术界第一次尝试必须难的大大问题,当另一个人歌词 歌词 歌词 儿还是比较欣喜和乐观的。

  1987年5月,当另一个人歌词 歌词 歌词 儿大幅度地提升了训练的数据库,采用了新的建模法律最好的办法 ,不但我太大 用统计学的法律最好的办法 学习每3个音,有后来 还我太大 用统计学的法律最好的办法 学习每3个音之间的转折。针对某些音的样本匮乏,我又想出了你累似 法律最好的办法 (generalized triphones)来合并某些的音。这三项工作你造把机器的语音识别率从原本的40%提高到了60 %!后来又提高到96%。

  统计学的法律最好的办法 用于语音识别初步被验证是正确的方向。

  当另一个人歌词 歌词 歌词 儿都相信了我用的机器学习法律最好的办法 和隐马可夫模型算法,有后来 选择选择离开了不可行的专家系统(专家系统只达到60 %的识别率)。在我的博士论文基础上,后来的Nuance,微软、苹果手机5等公司做出了业界最领先的产品。

  1988年4月,我受邀到纽约参加一年一度的世界语音学术会议,发表学术论文。

  你累似 成果撼动了整个学术领域。这是当时计算机领域里最顶尖的科学成果。

  语音识别率大幅度提高,让全世界语音研究领域闪烁出一道希望的光芒,从此,所有以专家系统研究语音识别的人删改转向了统计法律最好的办法 。

  会后,《纽约时报》派记者JohnMarkoff来到匹兹堡对我作了采访,文章发表于1988年7月6日,占了科技版首页的整个半版。在这篇文章里,马可奥夫大力报道了我的论文的突破。当时,我只实在在和3个和蔼可亲的记者聊天,事后,我才知道这是一名才华横溢的著名记者,三次提名普利策奖,并在斯坦福兼教。

这是1988年,《纽约时报》对我博士论文的报道

  后来,《商业周刊》把我的发明选为1988年最重要的科学发明。年仅26岁初出茅庐的我,第一次亮相就获得原本的成功,我你都可以感到很幸运,也我你都可以有了继续向科技高峰攀爬的动力。

  而我也有后来 拿到了卡内基·梅隆大学的计算机博士学位,这离我1983年入学必须4年半的时间。在卡内基·梅隆大学的计算机学院,同学们平均6年以上我太大 拿到博士学位,我用必须短的时间拿到博士学位,是一项新的纪录。

  我也有后来 破格留校,成为一名26岁的助理教授。

  4

  遗憾的是,实在我找到了方向和基本法律最好的办法 ,但以当时的数据量级和计算水平,语音AI研究好难有商业化不可能 。我最终还是选择离开科研界,进入商界,用产品改变世界。

  60 年过了,AI发展的土壤终于肥沃起来。

  伴随互联网和移动互联网而来的大数据、高效的计算机运算能力等条件都齐备了。科研人员我太大 的数据集不再必须难以触碰,只是 我太大 另一个人牵头让更多的公司参与进来。这在60 多年前,我还是3个AI科研人员的时代,能接触到真实世界里必须海量的数据,是个遥不可及的梦想。

  我当年受惠于瑞迪教授的帮助和指导,今天也非常希望能给更多和我一样的年轻人,创造研究不可能 和条件。

  全都,昨天创新工场、搜狗、今日头条联合发起“AI Challenger 全球AI挑战赛”。三家公司分别投入极少量资金、也甩掉千万量级高质量开放数据集与宝贵GPU资源。

  同时,我也倡导商界和科研界能采用极少量的数据和标准的测试法律最好的办法 ,也欢迎更多的数据公司我太大 参与到你累似 平台里。

  希望当另一个人歌词 歌词 歌词 儿推出的Challenger.ai,还我太大 帮助到中国AI人才成长。

  在我看来,这次AIChallenger绝对不只是 3个活动,也绝对不只是 3个奖金60 万、年底就始于英文的竞赛,这是推进中国AI人才成长的重大催化剂。

  希望3年或5年后,当另一个人歌词 歌词 歌词 儿再来回顾你累似 段時光,当另一个人歌词 歌词 歌词 儿发现中美AI人才之间必须落差了,还能想到AI Challenger在原本重大过程中扮演了3个小小角,你都可以感到你累似 切有的是 价值。

  欢迎当另一个人歌词 歌词 歌词 儿登录大赛官网Challenger.ai,获取信息并报名。关于这场大赛的具体信息可点击文末的链接了解(要在电脑页面上我太大 报名哦)。

  当另一个人歌词 歌词 歌词 不可能 无法想象,我有多么羡慕当另一个人歌词 歌词 歌词 ,生活在数据爆炸的时代,另一个人提供数据和奖金池,让有才华的人一展拳脚。