显微镜式营销洞察背后的黑科技
“广告看似简单,但是,每条广告都要以大量的数据、信息和持续数月的研究为基础。——克劳德·霍普金斯
一、“显微镜级别洞察力背后的黑科技
无论何时,市场洞察都是营销人的眼睛,视线看向哪里、看到了什么,都左右着未来商业潮水的走向。
20多年前,“市场洞察更多还被称为“市场调研,由于可获取的样本量有限,调研结果在如今看来并不精准,更难以称之为“洞察。
互联网的兴起才让“洞察真正成为可能。但受限于技术和产品能力,广告主只能通过粗粒度的行业通用标签来投放。例如,不同广告主只能***用一个“美妆的行业标签,商业分析依旧无法达到理想中的“精准。
如今,5G时代下,流量潮水正逐渐褪去,接近饱和的移动互联网广告市场正宣告着存量时代的来临,营销步入精细化阶段。这意味着,洞察需要更加精准才有能力支撑更清晰的商业决策。
以美妆行业为例,广告主不仅需要看见对美妆感兴趣的人群在哪里,更需要知道对自己品牌感兴趣的人群有哪些。
广告的投放也不止于有限且固定的位置,还可以结合上下文场景。如主打美白的产品可以植入到所有与“美白相关的内容场景中。
洞察不再只是粗犷的行业调研,而是能够看见某一细分品类甚至某个产品的市场利益分析。
事实上,
上述这些功能都藏在巨量引擎的商业数据产品巨量云图中。有了这些精细的洞察,曾经相对模糊的营销的中上游如今有了更加清晰的视野,广告主也能有的放矢,把控更多决策细节。
“显微镜级别的洞察背后,是机器对万亿级数据流的抽丝剥茧,以及人类与机器的高效联动。
最初,巨量引擎技术团队围绕“精准洞察需求,决定在3个层面升级技术能力,开发出更精细、灵活、快速的解决方案:
1.基础层:提升机器的内容理解丰富度,产出更多样化的标签。
2.应用层:洞察不仅要精准,更要为广告主真正所需。因此搭建一个标准化标签生产平台,灵活满足广告主个性化标签需求,做到“所需即所得。
3.效率层:提升数据查询速度,确保广告主即时看到分析结果,以快速跟进决策。
二、基础层:让机器理解更丰富的世界
在巨量引擎,内容是最基础的“原料,无数内容流汇成数据的基本盘,为商业分析提供不竭动力。但事实上,正如原油要经过一系列工业流程才能变成有商业价值的石油,从海量内容中提炼出精准的商业洞察还需要很多操作。其中最关键的一环就是让机器能理解更多信息。
机器获取的信息量越大,输出的标签颗粒度就会越细,最终发现更具象的商业洞察。
整体上从两个方面入手。
一是在识别粒度上,将机器的文本理解能力提升至词粒度;二是在识别广度上,让机器具备理解视频的能力。二者都是为了让机器从海量内容中获取更多的信息,“看见一个更丰富的世界。
1.
细粒度的文本理解能力
在文本识别方面,机器的理解能力按照精细程度主要分为三个级别。同样一篇文章,初级水平的机器只能知道这段文本讲的是汽车,因此标签的分类也十分粗糙;中级水平的机器能理解到语句级别,识别出这篇讲汽车的文章中有多少篇幅讲的是发动机;高级水平的机器更聪明一些,能够识别出句子中的关键词。文章中某辆汽车的品牌、型号、外形、性能、配置等各方面表现都能被准确识别出来。
在巨量引擎,
机器的文本理解水平已经精确到了词粒度,达到了目前语义理解的最小单位
。简单来说,技术同学会制定一套具备商业属性的关键词策略,例如语义上是否相关、词频高低、热度搜索趋势、数据源是否有商业属性等,机器会根据这套策略将识别到的词语按照关键程度进行排序,越符合规定策略的词则排名越高,最终被定义为商业关键词。这些商业关键词如果再经过系统的“美工,就是我们在分析中经常看见的词云图。
2.
更广泛的内容识别范围
对机器来说,视频通常集图像、音频、文本等各个形态于一身,所以识别难度也比文本更高。在技术领域,通过机器学习的方法实现和理解多种形态信息的能力称为
多模态学习
,这其中“模态就是指各种信息的载体,如文本、图像、声音等。因此,视频理解就是一个典型的多模态学习应用场景。通过“多模态学习,机器能够识别出更多数据形态,对内容的理解也会更充分。
整体而言,让机器理解视频主要分为表征、融合和分类三个步骤。
“表征的作用类似于翻译,即将文本、图像、声音等不同类型的数据转换成机器能理解的“数据语言,即同一种结构的数据。在“融合阶段,机器将采取不同的策略将多种模态的信息进行整合,寻找这些信息之间的关联性,形成统一的认知。最后,机器在充分理解之后再把数据按照一级、二级行业属性等规则进行归类,相似的数据归为一类,最终输出“标签。
多模态技术科普视频:机器是如何理解视频的?
通俗来讲,有了多模态技术的加持,就像人类掌握了多国语言。一方面,在缺失某种模态的情况下也能凭借另一种模态理解内容;另一方面,通过对不同模态的信息进行融合,机器对内容的理解也更加准确。
通过对文本与视频的理解,机器将底层庞大的内容流“划分成了各式各样的标签,这些标签中有相对粗粒度的类目标签,也有精细到词粒度的关键词,它们组成了庞大的商业标签库,成为满足广告主不同营销需求的底层基础。
三、应用层:高效满足个性化洞察需求
虽然通过内容理解技术,机器最终能够输出更精准的标签。但这些标签属于标准化产物,产出后无法再更改和调整,因此依然很难满足一些广告主的个性化需求。
例如,如果广告主只想投放对自己品牌感兴趣的人群,或仅想知道与自身产品相关的利益点分析,那么就需要重新生产出一套符合自己需求的个性化标签,这其中需要对标签进行定义、根据规则在底层数据库中进行挖掘、以及评估测试等多个流程,最后才能上线使用。
这一系列流程都是在标签平台上实现的。简单来讲,标签平台是
搭建在内容理解的能力基础之上的标签生产和管理工具
。通过一套标准化的流程,让不懂技术的业务同学也能够根据实际需求自定义标签规则,在平台上灵活生产标签。
后来标签平台经过内测后对外开放,在巨量云图上线为“标签工厂。
用技术同学的话说,标签平台的价值就像是将餐厅的后厨开放出来。如果菜单上没有符合客人胃口的菜,那么就可以直接去后厨,挑选合适的食材,做出想要的美食。
一言以蔽之,标签平台让精准洞察具备了“适配性:不仅精准,且为广告主真正所需。
最终,通过内容理解和标签平台,广告主才能通过对全平台的内容指标分析,看到各种品类的市场趋势。甚至还能通过分析某一特定品类的UGC及PGC内容,得知产品卖点与用户认知是否契合、正负评论各有哪些、产品利益点表现情况等。
人群方面,广告主还能在标签平台上圈选出本品的兴趣和机会人群,以及找出与目标群众重合度高的KOL,大大降低营销决策的风险。
四、效率层:让商业分析唾手可得
如同古代的行军打仗,战报的送达时间密切影响着战略决策,事关战局输赢。商业分析也是如此,对广告主而言,如果数据不能被即时看见,就意味着不能尽快复盘,敏捷应对,那么其价值就会被削弱,即便洞察精准,依旧如管中窥豹。
事实上,广告主每发出一次查询请求,系统都要在海量数据库中进行查询、计算、分析等一系列复杂的操作,最终才将目标数据呈现在广告主眼前。但在广告主看来,这一切仅发生在眨眼之间。
如此高效的处理速度主要源于对数据存储方式的优化。对机器而言,不同类型的数据存储方式很大程度上决定了查询速度的快慢。就像从一个拥有10万本藏书的图书馆里找到四大名著一样,如果能将书籍按照内容以及首字母进行分类和排序,很快就能找全四大名著。
因此,在数据存储方式上,团队请了一个“外援——ClickHouse,一种高性能的开源数据库管理系统,专门擅长处理云图这种数据量大、经常承接各种灵活查询需求的场景。凭借列式存储结构和按列计算的特性,结合业务侧数据分片处理,ClickHouse能够高效读取与计算出广告主需要的数据。
例如广告主想对一二线城市爱吃巧克力的女性进行内容分析,传统的数据库则需要读取所有数据才能依次筛选出一二线城市、女性、爱吃巧克力三个标签,最后三个条件都符合的才是广告主的目标人群。但如果使用ClickHouse这个“外援,系统无需读取全部数据,只需查询这三个标签所在的“列,再对这三组数据在用户分片上进行“交并差并行处理就可以了,大大节省了查询时间。
在此基础上,再通过“BitMap技术
缩小数据的存储空间
。Bit是计算机数据系统中的最小单位,一个bit值可以为1或0,我们经常听到的“byte可以换算为8个bit。而“BitMap正是采用bit数组的数据结构,将原始数据与bit数组里的位置建立映射关系。由于Bit的存储单位很小,因此往往能够节省大量存储空间。
高度抽象一点说,“BitMap的原理就像英语的缩略词一样。例如把雅思写成全称的形式“InternationalEnglishLanguageTestingSystem需要占用45个字符,而如果直接简写成“IELTS只需要5个字符就够了,这样机器读取的时间就会大大缩短。
根据业务测试反馈,凭借ClickHouse和“BitMap组合,巨量云图的查询速度提升了10-50倍,查询时间已控制在3-5秒间,真正实现了商业分析的“所需即所得。
结语:
内容理解从底层解决了标签的精准问题,标签平台从上层让精准的洞察发挥出更多价值,查询技术让一切信息秒速进入人们的视线,正是通过一次次技术上的突破,才成就了如今洞悉更多商业细节的能力。
从创意生产到洞察分析,现在巨量引擎团队又有了更多新思考,例如让情感分析更加细腻、系统更加智能、生产更高效营销的科学性也正是在无数次思考中走向普罗大众。相信,这些细微的思考也会在未来带来更先进的技术,解决更多难题。