1? ?意识通用性行业KG本文援用地点:1.1 食品FlavorGraph为例在上一期里,藉由 用户、食材跟食谱 三位一体的多档次关系来树立常识图(KG:Knowledge Graph)。而且基于上述KG体经由过程三个阶段来天生反现实食材组合的图谱,这联合了多阶段的GCN模子跟反现实剖析来停止推举跟翻新。此中,幕后有一个基本组件:FlavorGraph。它等于俗称的:行业KG(industry knowledge graph),是由Sony AI团队与韩国高丽年夜学配合树立的食材配对通用性KG。它的数据量包括1,561 项风味化合物(flavor molecules)跟百万笔食谱,构成食品跟化合物构成的宏大常识收集,表白食材跟食材或食材与化合物之间的关联,可用来推举互补的配料,辅助厨师们翻新烹调菜肴。1.2 以医药DRKG为例DRKG(Drug Repurposing Knowledge Gaph)是由亚马逊上海AI试验室结合来自亚马逊AI北美、明尼苏达年夜学、俄亥俄州破年夜学、湖南年夜学的研讨者,独特构建的年夜范围药物再应用常识图,其包含属于13种实体范例(entity-types)的97, 238个实体(entities);以及属于107种边沿范例(edge-types)的5,874,261 项贯穿连接(links)。如图-1所示。图1 通用性DRKG(引自https://github.com/gnn4dr/DRKG)这DGRK十分有助于新药开辟,它能够无效收缩药物研发周期、下降本钱跟危险。从上述的医疗行业的DRKG,以及饮食行业的FlavorGraph 等,咱们来察看它们对各行业的AI利用,供给了很年夜的辅助。2? ?行业KG+AI模子将常识图KG跟AI模子联合起来,更可能控制数据之间的关联跟正确涵意,晋升了推论的正确性,也更施展AI器进修方式的才能。愈来愈多企业开端应用AI来辅助决议,KG+AI将智能融入数据自身,来为AI供给了更可说明、更正确的配景。进而帮助企业人士下降决议危险,晋升企业效益。比方,在医药行业,能说明某药物为何对特定疾病无效。而在饮食行业FlavorGraph供给的通用化学风味常识,并由AI模子(如GCN模子)进一步发掘潜伏菜单组合的关联,激起食谱翻新。此中,KG与GCN模子的联合进程,如下:2.1 数据网络与挑选:网络企业外部数据(如食材洽购列表、贩卖记载),而且荡涤数据,去除冗余或不相干的数据。应用行业KG构造化数据晋升GCN模子输入数据的品质。2.2 破KG:计划节点(node)与边(edge)的范例,比方「食材」、「操持」、「风味」等。而且界说节点特点(feature)跟关联(relationship),比方「包括」、「兼容」、「替换」等。2.3 练GCN模子:练习GCN来实现模子的目的,包含应用模子来提取常识。比方风味搭配倡议、新菜单推举等。上述的KG 与GCN 模子是互补的,KG 中的数据是高度构造化的图形数据,包括节点跟关联。而GCN可能处置图构造数据,经由过程聚合街坊节点的信息来进修每个节点的表现。于是,GCN天然适配KG的构造,捕获节点间庞杂的语义关联。这KG是行业数据的「智能衔接器」,能无效晋升企业AI处理计划的效力与正确性。比方,FlavorGraph与DRKG曾经展示残暴光辉,利用于很多贸易场景,让企业采取行业KG,联合本身数据打用造更有竞争力的AI 应。3? ?基于通用性行业KG,建构卑鄙企业KG通用性行业KG(如FlavorGraph)包含丰盛的行业共享性常识,而企业则针对小范畴的特别需要(如拉面的烹调进程、食材搭配、口胃分配等),树立公用的企业KG( 如FoodKG) 更具针对性。如图-2所示。图2 行业KG支撑卑鄙义务从行业KG(如FlavorGraph)中提取相干节点与边,弥补企业外部数据(如食材洽购列表、贩卖记载)。荡涤数据,去除冗余或不相干的数据。有了行业KG供给跨域常识的支撑,能无效利用于拉面食材推举、菜单计划跟特性化效劳等多种场景。这种形式是一种常识驱动的AI迁徙进修,能减速AI针对企业目的的利用。当初,就来不雅摩这个「常识驱动AI迁徙进修」的第一项事件:将行业FlavorGraph 的节点嵌入(node embedding)作为企业FoodKG + GCN的初始特点(initial features)。将已有的行业常识(如FlavorGraph中的节点嵌入)转化为模子可用的初始特点,同等于应用外部的常识来加强当地图谱的表示。无论是餐饮、医疗、金融、制作仍是批发行业,都能从跨域常识的迁徙中受益。初始特点来自于成熟的常识图谱,代表了节点间的隐含语义与构造关联。这种初始化能明显晋升模子在各行业的进修才能跟机能。事后练习的嵌入能轻松利用于新节点或关联的扩大,而无需从新从零练习。差别行业的图谱跟嵌入可共享或迁徙,增进跨范畴利用。比方,将医疗行业的常识嵌入利用于安康食物推举(如从DRKG迁徙到FlavorGraph)。另有,将财政数据图谱嵌入用于供给链危险治理等很多贸易情境。此中,节点嵌入(node embeddings)是将常识图谱中的节点转换为数值向量,亦即紧缩节点的高维属性与关联信息到低维空间中,保存图构造的中心语义。而后,于节点嵌入的向量空间,权衡节点之间的类似性。应用行业年夜KG的节点嵌入作为卑鄙企业小KG+GCN 模子输入,十分有助于晋升推举、分类、或猜测义务的正确度。基于KG 的常识来天生节点嵌入的罕见技巧包刮:DeepWalk、Node2 Vec、GraphSAGE、或GCN 等。4? ?现实案例演示:实际卑鄙义务方才提到了,每个食材跟化学身分都是FlavorGraph图中的节点(node),这些节点之间的边(edge)代表食材跟化学身分之间的关系。比方,某些食材共享类似的化学身分或风味特征。而后,FlavorGraph + AI的框架中,其要害义务之一就是:天生食材及其化学身分的节点嵌入。因为SONY AI团队曾经应用FlavorGraph + DeepWalk方式来天生其节点嵌入了。以是在企业KG 的卑鄙义务建构中,就能直接读取它,来做为卑鄙FoodKG + GCN的肇端输入节点特点。4.1 从FlavorGraph读取节点嵌入当初,就来写一个小Python 顺序读取之。此顺序运转时,就会从FlavorGraph掏出食材( 如蛋)的节点嵌入,输出如下:因为FlavorGraph是行业年夜型KG,其容纳浩繁食材,其节点嵌入向量采用较高的300维度。比方,这顺序读取的食材 蛋 的嵌入向量含有300个数值。4.2 树立企业KG基于FlavorGraph天生的节点嵌入,就能树立卑鄙义务的高品质企业KG。平日企业KG的节点跟边的数目,都比上游通用性KG少良多,然而为了接收从上游迁徙而来的节点嵌入,以是企业KG的节点特点( 向量) 也必需设定成:300维。当初,就着手撰写一个小Python顺序,来树立一个小型FoodKG。它只有200个节点,以及171个边。如下代码:此顺序运转时,就会从nodes_tiny_200.csv跟edges_tiny_200.csv两个档案里, 读取200个节点跟171个边的数据,树立一个卑鄙的FoodKG。接着,从上游FlavorGraph读取节点嵌入,做为FoodKG的肇端节点特点。而且输出如下:于是,筹备好了FoodKG。4.3 企业KG来练习GCN接上去,就是引进GCN模子来进修FoodKG的数据。这是个别典范的GCN 练习,于此省略其练习代码。此顺序运转时,就开展练习200 回合,并输出:这是典范的GCN练习流程。从loss 值的连续降落,这GCN的进修后果是精良的。至此,实现了一项要害义务:应用行业KG供给的预练习嵌入,将KG节点转化为可用于GCN模子的数值特点,而且开展练习。5? ?停止语通用性行业KG能够支撑建构种种企业KG,并联合GCN等模子,来支撑浩繁企业AI的卑鄙义务。比方,也能支撑树立发酵食材的IngGraph,来实际另一项卑鄙客制化义务。发酵进程中的食材(比方:酸奶、酱油、啤酒、泡菜等)每每会阅历庞杂的化学反映跟微生物运动。在FlavorGraph风味关系图中,这些食材都是图中的节点,而发酵进程中的风味改变、化学物资(若有机酸、酯类、醇类等)的变更则成为边来衔接这些节点。GCN模子不只进修食材间的静态关系,还能捕获发酵进程中风味的变更。而卑鄙IngGraph如许的体系能够辅助用户实现更准确的食材搭配与风味计划,尤其是针对那些风味组合庞杂、须要高度自界说的发酵食材范畴。