AI不是魔术:人工智能可能是或不可行

 常见问题     |      2023-03-18 23:21

  本文的作者将探讨四种特定应用程序的实施,以了解AI技术对我们生活的方便以及存在的局限性?享受〜

  如果AI技术被分为“前端交互式技术”和“后端人工智能技术”。前端交互式技术包括语音识别,图像识别和自然语言处理;后端的人工智能技术是人工智能的核心算法,包括深度学习算法,记忆预测模型算法等。

  这些前端人工智能技术可以在应用程序中分为四类:语音识别,图像识别,自然语言处理和用户肖像。那么,在这四个特定应用中,AI技术的便利性是什么,我们生活的局限性是什么?让我们一一解构:

  1.语音识别

  语音识别

  语音识别有两个技术方向,一个是对声音的识别,另一个是声音的综合。

  语音识别是指我们自然声音的声音,需要将其转换为语言符号。语音信号通过识别和理解过程转换为响应文本或命令,然后与我们互动。语音识别技术可以应用于电话销售。例如,公司中有许多新移民,没有经验,而获得清单的可能性也很低。新移民如何具有出色的销售能力?过去的做法是总结一下小册子的经历,并让新移民携带它。这很容易忘记。但是,如果您具有较高的精确语音识别能力,则可以识别客户的要求,然后在屏幕上告诉新人,如何回答这个问题。

  语音识别的第二个方向是语音的综合,这意味着机器将文本转换为语音,并可以根据个人需求自定义语音,然后阅读。以前的声音是统一速度,没有划船机的声音,现在它可以使用更多的自然声音。语音综合可以模拟您喜欢的人的任何讲话方式,您可以实现每个人都听的不同事物。我们经常使用的Baidu导航中的李扬港(Li Yanhong)的声音是语音综合的结果。

  尽管深度学习引入95%后,识别率已迅速提高到95%,但开发ASR(自动语音识别)从任何时候应用于某些人随时应用于任何人,仍然是不现实的。的。一个不能破坏的问题是语义错误。例如:居住在南京的人们知道有一个叫做卡齐曼的地方,但是当百度导航理解kazima时,它将被分为“ kazi-gate”。结果,Kazimen被读为Qiazimen。

  2.图像识别

  计算机视觉

  图像识别是我们经常称呼的计算机视觉(CV)。通常使用:打印文本识别,面部识别,面部特征,面部对比度和验证,面部检索,图片标签,ID卡光学角色识别(OCR),名片OCR识别和其他字段。

  人类对世界信息的大多数理解都来自愿景。同样,计算机视觉也已成为世界认知世界的基础。最终目的是使计算机像人一样“了解世界”。目前,计算机视觉在面部识别,图像识别和增强现实方面具有良好的应用,但也存在某些挑战。让我们去Google的无人驾驶驾驶。在此阶段,通过机器视觉识别的技术路径,仍然存在完全不可替代的技术问题。

  在不谈论算法的情况下,图像的摄入精度是困难。即使是顶级相机设备也无法实现人类眼睛的细节。与眼睛看到的图像相比,您可以看到差异。这不是谈论可以经济且可行的低成本相机设备。视觉识别自主驾驶系统,眼睛是近视眼。

  如果下雨,难以解决灰尘和其他对区分的影响。如果您与雷达合作,则对优先级或相机有逻辑判断,还是信用雷达?会错吗?作为激光雷达,如果纯身体本身具有相同的逻辑判断,那么什么样的东西受到威胁和什么不威胁。潜在的威胁无法通过诸如计算机视觉之类的单一智能来解决。因为预测未来的感知能力是人和机器之间的最大差异。

  3.自然语言治疗(NLP)

  西安僧侣和尚

  自然语言是人类智慧的结晶。自然语言治疗(NLP)是人工智能中最困难的问题之一。由于了解自然语言,我们需要对外部世界和使用这些知识的能力有广泛的知识。自然语言认知也被视为人工智能的问题(AI完整)。

  例如,我们过去使用键盘,鼠标,触摸屏与设备进行交互。但是现在您可以操作该设备,只需对智能扬声器说:请为我的手机充电100元。尽管此功能已在Ali Tmall的Tmall Elf上实现,但实施的前提是您的声音模式已在TMALL ELF应用程序上记录,并且您的手机号码和付款密码已在应用程序端设置。否则,机器将无法理解我是谁以及为谁充电100元的手机。

  其次,自然语言处理取决于传统的问答系统技术,即ANSWORKING(QA)的问题。质量检查技术是自然语言处理中非常重要的研究方向。原则是:首先分析输入问题,以了解问题或指示的结构和意图。例如,如果用户询问某人出生的问题,那么机器需要先分析这句话,然后了解他们要回答的地方应该是一个地方,这个地方应该满足某人出生的条件。

  当我们能够准确地了解用户质疑的意图并以机器可以理解的方式重新组织它时,我们需要找到答案。为了实现这一目标,QA系统背后有一个庞大的数据库(即知识库)。该数据库存储所有相应的答案或相应指令的相应答案。回答什么或回答时,您可以向用户提供答案,或直接实施用户的说明。当然,如果数据库的规模确实有限,则有一种方法可以根据信息检索返回答案,并且用户的输入提取关键字,然后帮助搜索引擎在返回用户之前返回相关内容。因此,结果通常是可以接受的。

  自然语言处理具有许多与着陆有关的产品。典型的代表是聊天机器人。其中一个由Siri,Amazon Echo,Microsoft Xiaona,Ali Tmall Elf,小米小米AI扬声器等代表,并且倾向于基于工具的机器人。另一个是由Microsoft Xiaobing代表的娱乐机器人。第一种聊天机器人是通过完成任务或回答事实问题来指导的。例如,如果您问Tmall Elf“今天的天气是什么?”,或向“ Little Love Student”发出“关闭卧室灯”。第二类是通过闲话来指导的。无需回答某个事实问题。例如:北京Longquan Temple的Xianjie和尚。

  第四,用户肖像

  任务不可能6:完全瓦解

  用户肖像是根据信息/数据(例如用户社交属性,生活习惯和消费行为)提取的标签用户模型。构建用户肖像的核心工作是向用户发布“标签”,以描述人们的行为和特征,并且通过分析用户信息,标签是一个高度简洁的功能徽标。

  用户肖像在业务领域广泛使用。以百度为例。 Baidu现在使用数以百万个细分标签来确定近10亿用户,以对用户进行分类,例如性别,年龄,地理位置以及该人在金融领域的情况,旅游业中的爱好是什么。这些东西在一起形成用户肖像。百度知道你是什么样的人以及您喜欢什么样的东西。例如,将在今年夏天发行的电影《不可能6:完整的亮度》在宣传期间将人群分为三类。第三类可以进入电影院。宣传将利用百度大脑的用户肖像功能来识别第三种类型的人群,并在此类受众中进行针对性的宣传。

  人工智能在用户肖像中的最重要作用是查找相关性和标签用户。用户标签是尺寸的数据识别,例如基本属性,行为倾向和表达式的兴趣偏好。这是一个具有很强相关性的关键字,可以简单地描述和分类。例如好人和坏人,邮政-90年代和邮政-80年代,星座,白色 - 城市工人等。特定过程通常会挖掘出混乱和微不足道的用户行为流(日志)的用户更稳定的功能,也就是说用户。

  例如,如果您经常购买一些尿布,那么电子商务网站可以根据母亲和婴儿购买的状况标记您“生孩子”,甚至可以判断孩子的大约年龄。年龄的年龄“是一个更具体的标签,所有这些标签都成为您的用户肖像。还可以说,用户肖像正在判断哪种人是什么样的。但是,尽管今天的人工智能可以找到相关性,它找不到内部逻辑,因此很容易扭转前提和结论。例如,根据大数据的统计数据,喝咖啡的人的寿命比不喝咖啡的人更长。每个人都出于原因是否喝咖啡。也许以高水平的生活人士有钱,有时间喝咖啡。因此,真实情况是长寿的人喝咖啡。

  5.人工智能算法

  深度学习算法

  在讲话之后,语音识别,图像识别和自然语言处理这些交互式前端 - 人工智能技术,让我们谈谈后端 - 端 - 人工智能技术。后端人工智能技术是指人工智能的核心算法,包括深度学习算法,记忆预测模型算法等。

  首先,让我们谈谈深度学习算法。我们知道2016年是人工智能爆炸的一年。首先,Alphago击败了Li Shishi。在今年年底,大师连续赢得60场比赛,席卷中国日本和韩国大师赛。有一段时间,公众舆论感到震惊。这个Alpha GO背后的深度团队使用了深度增强的学习,这是进行决策深度神经网络的结果。深度学习是机器学习的新领域。人们普遍认为,深度学习的先驱是加拿大多伦多大学的名为Geoffrey Hinton的教授。他是“神经科学+计算机科学家”。他相信外界的信息,并一直在研究1980年代对计算机系统架构的使用来模拟人类大脑,这是当今深度学习的原型。

  今天,我们可以理解深度学习算法。深度学习是使用一个层次层的神经网络的计算来找到最佳参数,然后结合参数以做出未来的决策。起点在于建立神经网络,以分析和向人脑学习。在深度学习的整个学习过程中,您可以直接将大量数据放入算法中以使数据说话,并且系统将自动从数据中学习。从输入到输出是一个完全自动的过程。深度学习算法现在被设计为设计师设定目标的工具。例如,Alphago的目标是赢得GO游戏,而不是开车或做其他事情。 Alphago无法设定自己的目标。如果您想完成另一个目标,则需要设计另一台机器。当然,人工智能有n个道路。深度学习算法是人工智能算法中的最佳性能。但是深度学习不仅是好的,还有两个中国人在深度学习的兴起中:

  一位是斯坦福大学的教授,也是Google大脑的创始人Wu Enda教授,因为他发现深度学习需要更强的计算能力,因此他发现Nvida GPU(图形处理单元)一百次。另一个人也是斯坦福大学的教授。她建立了图像识别数据库。并且标有所有图像,也就是说,如果地图中有一座山,则将标记山,如果有一棵树,则将标记树。在这种情况下,您可以使用此图形库来训练人工智能系统,以查看是否可以识别此图形库上标记的这些元素。在培训此图像库后,您可以训练视觉能力超越人的人工智能系统。

  但是,不要认为深度学习达到当今水平是无敌的,甚至可以超越人类。在深度学习中开发的人工智能系统中存在一个明显的缺陷,也就是说,他的过程无法描述,机器不能用人类的语言说话。例如,Alpha Go击败了Li Shishi,您必须问Alphago为何接管了这个国际象棋,它无法回答。换句话说,我们不知道机器做事的动机和原因。

  为了更好地识别人工智能算法的局限性,需要引入一个概念,即认知复杂性。什么是认知复杂性?它是指您构建“客观”世界的能力。高认知复杂性的人擅长使用互补或不兼容的概念来理解客观世界,因为现实世界本身不是黑人或白人。因此,对于机器,“认知计算”和“人工智能”必须做什么?人工智能的未来通常分为三个开发方向:人们可以获取机器,机器和“人机共生”。旨在“人类流动共生”的人工智能是认知计算。 IBM在认知计算领域获得了很多经验,并总结了认知计算的三个功能,即交流,决策和发现。

  (1)交流

  第一个能力是沟通,认知计算可以处理非结构性问题。许多患有Siri的人只会将其用作娱乐功能,因为它不能保证交换内容的准确性,有时Siri根本无法联系您,因为您的言语太复杂了。这只能被视为人工智能的初始状态。

  认知计算可以完全模仿人类的认知,您可以将其视为一个孩子。好像有一群成年人在孩子们周围取笑他。有人告诉孩子1+1 = 2,有人说1+1 = 3。但是随着孩子的成长,他会明白1+1 = 2是正确的。这是非结构性问题。早期人工智能只能学习他人教授的知识,但是认知计算可以处理模糊甚至矛盾的信息。

  (2)决定

  第二个能力是决策。我们都知道,人工智能可以分析复杂的逻辑,然后做出决策。可以根据新信息进一步调整认知计算。更强大的是,认知系统做出的决定没有偏见,而“没有偏见的决定”几乎是不可能的。例如,治疗癌症是一个典型的医疗决策场景。

  癌症难以治愈的原因是,一方面,因为这种疾病太复杂了,另一方面,如果医生无法及时找到患者的癌症信号,他们可能会延迟患者的治疗或导致诊断错误。认知计算可以全面分析复杂的医学数据。它还可以在医生的语言中分析含义,并最终提出其建议。

  这大大减少了医生病历的时间,使医生可以在患者身上使用更多时间。 2016年8月,“东京新闻”报道说,由IBM开发的认知计算机器人“沃森”学会了大量医学论文。仅需10分钟即可诊断患者难以判断判断力。白血病的类型还向东京大学医学科学研究所提出了适当的治疗计划。

  (3)发现

  第三个能力是发现认知计算可以找到新事物和新的联系,以填补人类思维的空白。例如,在竞争激烈的餐饮行业中,我们如何制作满足客户的新菜肴?

  认知系统可以整合区域知识和文化知识,以及各种食物匹配的理论,以帮助用户发现意外的食物匹配。例如,突然有一天会告诉您:用炖烹饪的配方制作一个比萨饼,它可能适合您的食欲。如果您这样做,那很好!实际上,自2015年以来,IBM开发的“沃森”已经学到了超过35,000种经典食谱,然后分析了大量成分,结合了化学和营养数据,以带来厨师和美食,以使新型食谱超出人类的想象力。

  认知计算可以帮助我们更好地进行交流,决定和发现。但是,仍然有很多人工智能。例如:抽象能力,自我意识,美学,情感等。

  六。概括

  说到这么多人工智能。实际上,AI不是魔术。它只是数学,统计数据,并使用大数据来执行模式识别。它是对环境和对象的识别和相关分析的智能。该算法用于实现人类的逻辑和数学思维,并形成计算机思维,从而得出特殊的算法系统和机器智慧。

  实际上,所有人工智能问题实际上都是软件,并且所有问题都通过自动化知识解决。例如,过去,我们使用各种光学镜头使照片更美丽。现在,我们可以使用“算法”获得它。另一个例子是进行实验。过去,我们不得不玩各种瓶子和罐子,现在我们可以模拟计算机中的核爆炸。

  本文由 @本本本发表,是产品经理。未经许可禁止转载。

  标题映射来自PEXELS,基于CC0协议

  报告/反馈