sentic logo SenticNet

有限公司,无限机会

关于我们

我们是一家植根于新加坡的大学衍生企业(UEN 53334305D)。 我们的业务及产品主要因为以下三个特征而远远区别于市面上其他公司:

1. 我们的解决方案
无需改变你的OS(操作系统),UI(用户界面)或者 IDE(集成开发环境): 我们的API(应用程序接口)使用非常友好,以至于可以嵌入到任何现有系统模块。 我们提供精细化的解决方案以应对情感分析的诸多子任务, 譬如情感极性侦测,目标方面信息提取,主观性侦测,时序标注,命名实体识别,概念抽取,个性化识别以及讽刺侦测等。 不仅如此,我们还提供将以上诸多任务按照不同领域,不同形态(比如文字,语音,视频)以及不同语言的定制化分析。

2. 我们的透明化
我们会清晰的向您展示数据是如何收集以及它们是如何被进行分类的。 然而与此不同的是,市面上大多数公司采用的是一种黑箱的方式,即他们仅透露给您最终的分类结果。 在这种方式下,您无法确信所得到的结果的准确度,因为他们既不会公开数据也不会公开在这些数据上使用的分类方法(通常情况下这些方法都是过时的)。

3. 我们的方法
自然语言处理研究发展更迭迅速。唯一能紧跟最新技术前沿的方式就是完全浸入学术圈。我们并不是单纯的商业公司:我们是一个研究实验室。 我们熟悉当下以及未来自然语言处理的发展状况及趋势,并且我们也实时将最新科技应用于我们的应用程序接口。 与当前大多数公司(他们倾向于集中解决问题的某一个方面)不同的是,我们采用的是跨学科多领域方式进行情感分析(具体如下)。

我们的方法

情绪分析是一个多方面的问题,需要解决许多困难的自然语言处理任务,例如意图挖掘,方面信息提取,人性化识别,讽刺检测等。 作为研究课题,情绪分析比自然语言处理研究更接近于自然语言理解。 因此,仅关注问题的一个方面将是非常有限的。 相反,我们采取了多学科的情绪分析方法,同时利用知识表示,数学,常识推理,深度学习,语言学和心理学等方面的最新进展。


  • 知识表示

    我们用一张语义网络来表示常识性知识。 网络中的节点是概念节点,每一个节点通过语义关系与其他概念节点以及情感节点相连接。

    数学

    我们利用了许多类别的多元统计计算方法来进行推理和类比的分析,比如LDA,PCA 以及多维度缩放。

    常识性知识推理

    我们采用了泛型模式在三个层次上冗余的表示知识,并同时将它们用于常识推理。

  • 深度学习

    我们更进一步的开发并应用最前沿的深度学习技术来进行基于上下文的情绪及情感分析,例如递归神经网络,卷积神经网络,长短期记忆神经网络。

    语言学

    我们利用语言学模板来研究文字评论里不同部分之间的情感是怎样流动的,以更好的了解句子结构。

    心理学

    我们基于心理学研究对情绪的类别和强度进行建模,已获得更加精准的情感极性。

我们的技术

随着进来深度学习的发展,关于人工智能的研究获得了新的活力和突出的成就。然而,机器学习却有三个巨大的问题,它们分别是:

1. 依赖性: 需要(非常大的)训练数据,并且是强依赖于领域;
2. 一致性: 不同的训练方式或者轻微的变动就会导致截然不同的结果;
3. 透明性: 推理过程是无法解释的(黑箱算法)。

在SenticNet,我们在自然语言处理的背景下通过交叉学科的方式致力于解决上述问题,即 情感计算(sentic computing)。情感计算通过缩短统计自然语言处理与其他学科的距离来实现更好的理解人类语言的目标。这其中包括语言学,常识性知识推理,情感计算。 情感计算,这个术语源自拉丁语 sensus (基于常识) and sentire (情感的词根)。它不仅作用于文章层面,篇幅层面或者段落层面,而且作用于句子,从句以及概念层面。

情感计算

情感计算之所以能够实现,多亏自然语言处理的方法既可以从上至下也可以从下至上: 从上至下是因为情感计算利用符号模型来编码文字意义,比如语义网络和概念依赖关系表示;从下至上是因为我们使用比符号模型更基础的比如深度神经网络及多核学习方法从数据中来推导句法模式。 将符号模型和比符号模型更基础的模型结合的方式是从自然语言处理到自然语言理解路上的重要一步。 事实上,单纯依赖机器学习只能基于过去的经验取得“将就的猜测”。原因是因为比符号模型更基础的模型仅仅学到了相互关联性,而且它们的决策过程是仅仅基于概率的。 然而,达到自然语言理解需要的远远高于此。 就像诺姆·乔姆斯基说过:“在科学里,你是不能通过利用海量数据,把它们塞进计算机然后进行统计分析来获得新发现的。这不是人们理解事物的方式,正确的是你还需要理论见解(来支持)。”

情感应用

SenticNet的自我定位是一个广度的平台基础技术。 它作为一个后台支持可以应用于许多不同的商业应用领域,例如电子贸易,电子商务,电子政务系统,电子安全系统,网络医疗健康,网络教育,网络旅游,自动驾驶,网络娱乐等等。 尤其值得注意的是,情感计算的新颖性引起了三个关键转变:

1. 从单一学科到交叉多学科的转变 – 转变的证据诸如:为了知识表示和推理的人工智能和语义网络技术的同期结合;为了图形挖掘和多维度降低的数学学科;为了语句分析和语用学的语言学科学;为了认知和情感建模的心理学学科;为了理解社交网络动态特性和社交影响的社会学科学;以及最后为了理解心灵本质和情感机器创作的相关问题的伦理学学科。

2. 从语法到语义的转变 – 通过使用概念袋模型实现,而不是过去简单的通过在文本中计数单词同现频率。 在概念层面操作意味着保留多词组语义,比如“云计算”,这样的多词组具有语义不可拆的特性,因而不能拆分成单词或字。然而在传统的词袋模型中,“云计算”这个词会被被拆分成“云”和“计算”两个词,这就会错误的激活关于天气的相关概念,进而最终降低分类准确度。

3. 从统计学到语言学的转变 – 通过基于从句之间的依赖关系完成情绪在不同概念之间的流动来实现。例如,在词袋模型中,“iPhone X 很贵但是很棒。” 和 “iPhone X 很棒但是很贵。” 是相同的。然后这两个句子具有相反的情感极性:前者是正面的,因为用户可能愿意买这个产品,即使价格高。 后者是负面的,因为用户抱怨iPhone X 的价格即使他/她喜欢它。

跨越自然语言处理曲线

情感计算采用一种整体的方法来实现自然语言理解,其中包括处理许多关于提取意义和极性的子问题。虽然大多数现有工作将其视为一个简单的分类问题,实际上情感计算是一个需要解决许多自然语言处理任务的系列(手提箱)研究问题。正如马文·明斯基所说,“情绪分析”本身就是一个大手提箱(像许多其他与情感计算相关的例子,如情绪认知或观点挖掘)。我们所有人都用它来描述我们的思想如何传达情绪 和自然语言的意见。 情感计算通过三层结构来解决这个本质上相对复合的问题。并同时解决了许多任务,诸如概念抽取,把文本拆解成词或多词组,主观侦测,筛除中性内容,命名实体识别,根据预定义类别定位并分类命名实体,个性化识别,区分不同用户的个性类别,讽刺侦测,侦测及处理讽刺表达,方面信息抽取及基于方面信息的情感分析等等。

情感分析手提箱

情感计算的核心是SenticNet,这是一个有100,000条常识性概念的知识库。与许多其它情感知识库不一样的是,SenticNet不是通过从常用自然语言处理资源(比如WordNet或者DBPedia)人为标注知识构成的。 与之相反,它是通过应用图形挖掘和多维度缩放技术自动生成的。这些技术作用于通过WordNet-Affect, Open Mind Common Sense 和 GECKA 三种渠道收集来的情感常识性知识。这些知识在三个层面上互相冗余的被表示(基于明斯基的泛型原则):语义网络,矩阵,向量空间。随后,通过一个集合了传播激活神经网络情绪分类模型的综合应用,语义和情感被计算了出来。关于此部分的详细内容可参见最新的情感计算著作(第二章)。

SenticNet

SenticNet可用于许多情感分析任务,包括极性侦测。极性侦测是通过情感模板实现的。这些模板作用于句子的句法依赖树,如下图a所示。 唯一有内在情感极性的两个词用黄色显示;其他通过与语境极性转变器相似方式改变其余词意义的词使用蓝色显示。图b显示了一个完全忽略句子结构和单词内在极性的基准底线。剩下的唯一两个词带有负面的情感,因而最后的情感极性也是负面的。然而局法树也可以像电路一样来表达,即信号从一个回路(或者子树)流向另一个,如图c。通过移除不用于情感极性计算的词(白色),一个类似于拥有电子放大器,逻辑控制器及电阻的电路就形成了,如图d。关于此部分的详细内容可参见最新的情感计算著作(第三章)。

情感模板



获取SENTICNET

  • 告诉我们您的需求

    不要犹豫的联络我们并告诉我们您需要怎样的商业数据分析。我们会协助您找到让它们开花结果的解决方案。

    获得一个专属API

    除了通用情感分析的API,我们可以建立一个专属API来适应您的需求。我们的API是跨平台的(独立于平台),并且可以提供多领域,多形态及多语言支持。

    让您的客户满意

    您可以在决定我们的产品是否是您需要的之前免费试用我们的API一段时间。我们会尽全力帮助您了解您的客户,从而让他们更加满意。

示例

在我们研究性网站的下载区域,我们提供了许多免费的资源。最新版本的SenticNet同时以Python包和多种自然语言API的形式免费提供。我们同时也在我们的GitHub账户分享了相关代码。 然而,我们最前沿的工具是按使用付费服务。 以下,您可以试用我们工具的三个示例(目前暂仅支持英文),它们分别是情感分析任务:
概念抽取
极性侦测
方面信息抽取
一个基于Twitter的可视化工具(Sentic Tweety)也可以在此下载:




概念抽取

在进行情感侦测之前,多词组短语需要从文本中被抽取出来。以下是一个概念抽取的示例。它不需要经过耗时的短语结构分析就可以快速的从自由文本中识别出常识性概念。例如句子“我去市场买了水果和蔬菜。” 概念解析器会抽取比如“去市场”,“市场”,“买水果” 和“买蔬菜” 的概念。解析器利用语言学模板将自然语言句子分解成为有意义的配对,例如 形容词+名词,动词+名词及名词+名词。然后利用常识性知识来推断哪些配对在当前语境下更加相关。在这个示例中,输出的概念上限被设定在了15个。


回到顶部

极性侦测

极性侦测是情感分析里最基础的任务,具体包含将文本进行正向或负向的二分类。示例利用了语言学模板,当没有模板可以匹配时,就会依靠机器学习。请注意,在这里我们没有提及主观性侦测的任务。因此,该示例提前假设输入的句子是有情感倾向的(而不是中性的)。同时,该版本的示例没有处理比较型从句,比如“我喜欢iPhone但是安卓机更好”。




回到顶部

方面信息抽取

方面信息抽取是基于方面信息的情感分析的必要预处理步骤。基于方面信息的情感分析,例如侦测不同产品或服务的某个方面的情感极性,而不是整体的情感极性。这是当出现同一个产品的不同方面具有相反情感的情形正确计算句子情感极性的关键。例如句子“触摸屏不错但是电池量小了点”。方面信息解析器会抽出“触摸屏”和“电池量”。

我们的客户

我们的团队

  • Erik Cambria

    Erik是SenticNet的创始人,南洋理工大学助理教授。他教授自然语言处理及信息检索的课程并开展相关学术研究。

    Alberto Massa

    Alberto是SenticNet的CEO,沟通,企业战略和产品设计的专家,并专门从事技术和商业的紧密协同。

    Leaf Yap

    Leaf是SenticNet的CMO,在投资管理咨询,营销传播,公共关系和金融新闻方面拥有超过十二年经验的企业家。

    Chen Gui

    Chen是一名经验丰富的项目经理和知识渊博的信息技术专业人士,拥有多年用数据进行商业分析和开发的经验。

    Prateek Vij

    Prateek是一名深度学习和自然语言处理的专家,他开发并应用解决情绪分析任务,如人性化识别和讽刺检测。

    Anirban Bera

    Anirban是一位经验丰富的软件设计师和开发人员,在微软科技,和Web技术方面具有出色的分析能力。

感兴趣?订阅SENTICNET邮件

给我们留言

微信

senticnet

Skype

senticnet

电子邮件

business@sentic.net