贾 楠(北京外国语大学国际教育学院)
鲁钰锋(罗格科技(北京)有限公司)
2022年11月30日,美国OpenAI公司发布了ChatGPT,引发了社会公众和专业人士对生成式人工智能的持续关注。生成式人工智能不同于传统的分析式人工智能,主要指一种基于神经网络的人工智能模型,具有强大的生成能力和处理复杂数据的能力。由于生成式人工智能生成的结果更加自然,其在实践中的应用也更为广泛。生成式人工智能开启了智能时代的新篇章,其技术触角逐渐延伸至经济社会发展的各个领域并引起各国政府的关注。2023年4月11日,国家互联网信息办公室就“生成式人工智能服务管理办法”公开征求意见,以期促进我国生成式人工智能健康发展和规范应用。伴随着经济社会的全面数字化转型,特别是以ChatGPT为代表的生成式人工智能技术在提升税法遵从度方面的重要性也开始逐步显现,但当前依然局限在基于应用场景的讨论,与税收领域相匹配的生成式人工智能深度应用的底层逻辑和基本范式仍有待构建。
2022年被称为“生成式人工智能元年”。以ChatGPT为代表的智能服务实现了文本图像交互和自然语言处理,人工智能从“学习”走向“创造”。生成式人工智能是指基于算法、模型和规则等对样本数据进行深度学习并通过不断迭代更新模型参数以生成高质量内容的技术,生成的内容包括图像、视频、音频或文本等多种形式。不同于传统的人工智能,生成式人工智能不仅可以实现深度学习、提炼信息、趋势预测,更可以生成前所未有的新内容,实现创造能力的突破。从分析能力到生成能力,是生成式人工智能的突出特征。
(一)以ChatGPT为代表的生成式人工智能的发展历程
1956年约翰·麦卡锡正式提出了“人工智能”一词。人工智能为人类生活开启了新的便利时代,尽管在诞生之初人工智能的发展几经起伏,但在历经深度学习等多次技术变革和规模化应用后,其分析数据、提炼规律并预测趋势的能力已经远超人类。无论检测垃圾邮件还是预测广告推送,分析式人工智能已然走向成熟,并将人类生活推向更高层次、更加便利的阶段。然而,即便传统的人工智能将分析能力发挥到极致,却无法实现类人化思考,直到生成式人工智能的出现,机器开始展现创造性思维的一面,产品设计、诗歌创作、游戏开发以及代码编写等一系列创造性工作和行业得以重塑。生成式人工智能不仅作用于人类的行为习惯,更是影响着个人的思维方式。当前,生成式人工智能尚处于发展初期,依托于大数据、大模型、大算力,不断拓展在行业领域的应用广度和深度。可以预见的是,未来生成式人工智能将把创作的边际成本降为零,显著提高应用产业的劳动生产率和经济价值。
真正意义上的生成式人工智能可以追溯至2014年Goodfellow等人提出的基于隐式密度估计的生成式对抗网络模型。2014年之前人工智能倾向于小型模型在分析任务上的应用,而生成式人工智能的表现欠佳,如自回归模型。从2014年到2022年,生成式人工智能的算力显著增强,其计算量增加了6个数量级,在此期间,生成式对抗网络模型、变分自编码、流模型、扩散模型等算法模型相继出现并得以不断优化。在算法模型不断更新的同时,转换器算法(transformer)架构实现了语境纳入方式的重大突破,使得机器可以通过计算的形式生成量化的复杂人类语境。基于当前的发展,生成式人工智能深刻影响着商业模式和经济形态,进而激发更多的、全新的“杀手级应用”的出现。
ChatGPT的出现迅速引发经济社会各界对生成式人工智能的关注,但ChatGPT只是生成式人工智能的一个方面,是利用自回归模型训练的大语言模型,其无法代表整个生成式人工智能的全部。当前市面上较为著名的生成式人工智能产品的用途包括语言理解与生成、根据文字生成图片、根据文字生成视频、根据文字生成音乐、根据图片生成文字、代码生成等多个方面,而GPT主要的用途集中在语言理解与生成。从生成式人工智能未来的发展看,深度学习赋能专业化的应用场景,需要对生成式人工智能有全面准确的了解,避免以偏概全。
(二)以ChatGPT为代表的生成式人工智能的特点
生成式人工智能实现了从分析到创造的重大技术跃迁,成为推动数字劳动力变革的重要力量。总结生成式人工智能的特点,大致可以归纳为以下五点。
1.训练数据规模庞大。通过训练样本数据提升模型判断力是生成式人工智能区别于传统人工智能的显著特点,而要实现这种“生成”功能或者“创造”功能,则需要依托大规模数据训练超大参数量的巨量模型。基于上述特点的生成式人工智能在性能上也必将实现突飞猛进。
随着税务工作面向数字化、智能化、场景化转型的全面推进,巨量模型的应用能够为税收征管和纳税服务积累海量数据,有利于面向提升税法遵从度的大型税务语料库的建设。从税收征管角度看,涉税数据是税收征管的基础,基于大数据技术的应用,推进税收征管数字化转型,能够为加强涉税风险管理、优化征管服务、提升税收治理效能奠定技术基础。
2.训练数据的获取有望“物美价廉”。一项来自麻省理工学院的研究表明,合成数据可以改进机器学习的性能,在训练模型的准确性、安全性等方面表现更优秀。依托规模庞大的训练数据是生成式人工智能的首要特点,而用合成数据代替真实数据将节约大量的成本。通俗地讲,训练数据在生成式人工智能时代将有可能变得“物美价廉”。
合成数据的应用一方面能够不断提高训练模型的准确性,另一方面也能够避免发生泄露真实数据的情况。其在税收领域的应用尤为重要,涉税数据与纳税人的生产经营活动密切相关,一旦出现涉税数据的泄露则会给纳税人带来不可挽回的损失。因此,如果可以利用合成数据训练税收领域的生成式人工智能,则不仅节约了成本,更能有效保护好纳税人的信息安全。
3.多模态模型成为新的选择。最初的生成式人工智能采用的是从文本到文本的单模态模式,但伴随着各类生成式模型的不断优化,文字、图形、音频等元素都可以互为输入、生成内容,形成了多模态模型。从当前模型的性能看,不仅能够实现从文字到图片,也可以实现从图片到文字,甚至可以同时处理文字、图形、音频和视频。
多模态模型的应用有利于降低税法遵从成本、提高税收征管水平。在单模态模式下,税收管理局限于文本到文本。于纳税人而言,不利于其获取界面友好、智能高效的服务,而于税务人员而言,则不利于转化多种不同形式的来源信息,对于加强税收征管、风险防控都将形成掣肘。多模态模型在税收领域的全面应用,则有利于解决上述问题,优化税收征管。
4.算力投入规模要求高。大模型的普及依赖大算力投入,不仅对芯片的性能要求较高,也对建设高端的数据中心和智算中心有较高需求。算力投入是保障生成式人工智能实现大范围应用和推广的基础,对于资金投入规模也具有较高需求。
大算力投入对构建大型通用技术形成了制约,但也明确了税收领域的生成式人工智能建设的方向,即应关注场景和具体业务问题的深度应用。通用目的技术应用固然重要,但加速应用层面落地,关注生成式人工智能解决问题和场景服务方面的深度应用,尤其是在专业领域如何发挥生成式人工智能的“人机交互”和“共同工作”优势才更为关键。关注税收领域的深度应用而非通用目的技术作用决定了在税收领域建设生成式人工智能的主体只能是税务部门。
5.各类风险问题仍有待解决。技术进步在提升效率的同时也会引发新的问题。一项新技术从产生到发展再到成熟应用必然会冲击着经济社会的各个方面。从当前各类生成式人工智能的应用情况看,技术性失业问题、收入不平等问题、知识产权问题、安全与隐私问题以及道德伦理问题都引发了诸多思考。未来生成式人工智能的进一步发展则需要逐一解决上述问题。
尽管生成式人工智能依然存在一些悬而未决的问题,但基于上述生成式人工智能的特点分析,我们发现,在税收领域探索构建生成式人工智能不仅意义重大,而且是必然趋势。为此,基于纳税人税法遵从视角,构建并充分应用税收领域的生成式人工智能可以为税务人员提供“智能化助手”,还可以全面提升税收治理效能。
二、经济社会全面数字化转型影响纳税人税法遵从的几点因素
在经济社会全面数字化转型的背景下,影响纳税人税法遵从度的因素显著增多。比如,交易模式的复杂化、涉税数据的规模剧增等会加大税收流失风险;再如,伴随着平台经济的繁荣,现行税制无法适应经济社会全面数字化转型,也必将影响税法遵从引导模式的实现。
(一)从数字化建设角度看当前我国的税法遵从管理
税收征管数字化转型是税收治理主动适应数字经济的重要举措。依托大数据、区块链、云计算等信息技术的应用,我国推进税收征管数字化转型,为提升税法遵从度提供了技术支撑。基于智能感知、网络统筹、递进式应对等方面构建应用支撑平台,建设数字风险档案,支撑涉税风险穿透管控,从而全面、精确地提升了纳税人的税法遵从度。数字化深刻影响着征纳双方的涉税行为,使得税收征管从传统的“以票管税”向数字化升级转变,通过优化征管服务,降低税法遵从成本。
基于纳税服务视角,传统税收征管模式下的纳税服务格式化、无差别化,办税流程烦琐复杂化等弊端在经济社会全面数字化转型过程中得以改变。数字化、智能化应用能够降低税法遵从成本。一是线上平台的构建实现个人税费事项掌上办理,完善自然人税费服务体系;二是打造更加及时的需求响应,切实满足纳税人缴费人税费服务诉求;三是优化税收营商环境,减少纳税申报次数和时间;四是建设电子税务局,保护纳税人的信息安全和个人隐私。与此同时,依托现代信息技术实现纳税个性化服务,实现全国咨询“一线通答”。
基于税收征管视角,一方面,信息技术和税收大数据能够实现对纳税人多维度、全周期税法遵从监管,通过对数据资源的智能分析和共享协调,驱动税收征管制度的创新和变革,提升税法遵从度;另一方面,发票数字化改革彻底改变了手工作业的人海战术,通过智能归集实现涉税流程和风险识别的自动化,降低制度性交易成本,提升税务人员的工作效率和税务机关的监管水平。
(二)经济社会全面数字化转型给税法遵从度的提升带来了新的挑战
1.经济社会全面数字化转型加大了涉税风险管理难度。数字化、智能化全面作用于经济社会,并催生出新业态、新模式以及新的就业群体。在此背景下,纳税人的经营结构愈加复杂、税源的隐蔽性也日益增强,各类涉税数据呈几何级增长,税务机关及时获取纳税人涉税数据的难度不断增加。就当前我国的税收管理体制而言,纵向上缺乏清晰的职责边界,横向上的信息协同共享水平不足,使得全方位的税收征管难以实现。与此同时,税法遵从的引导模式尚未明确,不利于经济社会全面数字化转型背景下的税法遵从度的提升。
2.税制改革滞后于经济社会全面数字化转型。我国当前的税收制度是以工业经济为基础构建的,分支机构等物理存在是跨区经营进行税收利益分享的基础。然而,在数字技术和人工智能的作用下,国内税收利益分配格局被重塑。平台企业的跨区域服务无须在各个省份设立物理存在,生产地与消费地之间,注册地与所得来源地之间不可避免地存在着税收收入划分冲突。税收管辖权认定困难,地区之间的税收收入差距也会进一步扩大。
在现有的税收收入分配规则下,税收收入的归属偏差赋予了发达地区更多的财政优势,而相对欠发达地区则不可避免地要面对税收收入流失风险。发达地区作为平台企业的主要注册地和生产地,在所得税和增值税的分配中都居于优势地位,而欠发达地区虽然是实际税收收入的贡献地,却无法享受税收收入分配,影响着财政均等化的形成。于企业法人而言,上述这种偏差会影响企业的地区业务开展,进而降低企业的税法遵从度。
3.理念偏差影响人工智能在税收领域的深度应用。生成式人工智能尚处于发展初期,人们更多担忧的是其对人工的技术替代,而忽略生成式人工智能在税收领域的深度应用。实际上,生成式人工智能可以通过对税收大数据的深度学习强化对经济运行预测与风险研判,提高社会治理能力。作为一种生产工具,生成式人工智能的应用价值并非对税务人员的替代,而是通过人机协同、共同工作的方式推动生产力与生产关系的变革,助力税收现代化的实现。
从应用角度而言,税收经济体系实际上是一个超高维动态复杂系统。传统的小模型难以准确刻画经济运行中的非线性关系与时变性特征,生成式人工智能可以发挥大模型和海量数据的作用提升其样本外预测能力,显著提升税法遵从度和税收治理效能。聚焦税法遵从的应用场景和具体业务问题进行深度训练更加符合当前我国基本国情。
(三)生成式人工智能为提升税法遵从度提供了可能
我国以提升税法遵从度为视角构建生成式人工智能,既具有前瞻性,亦具有可行性。当前我国在税收管理领域的数字化建设已经卓有成效,打造应用支撑平台实现了全国税收数据汇集,建设数字账户为实现风险规则前置提供基础,实行标签化数据管理为提升税收征管效率赋能等,都为进一步深化生成式人工智能的应用奠定了基础。
生成式人工智能的发展为提升税法遵从度提供了技术支撑。针对当前我国经济社会全面数字化转型对税收领域带来的机遇和挑战,我们应该坚定生成式人工智能在税收领域的深化应用,从海量涉税数据中深度学习、提炼规律,为全面提升纳税人的税法遵从度助力。
运用生成式人工智能技术提升税法遵从度需要构建税务行业大模型。笔者建议从基石模型体系、大数据模型体系以及应用场景体系三个维度奠定税收领域以ChatGPT为代表的生成式人工智能的逻辑基础。
(一)基石模型体系
基石模型一词最早由斯坦福大学的一个团队于2021年引入,是一种大型预训练模型。基石模型通常具有数十亿个参数,可以应用于各种任务和应用程序,例如文本分类、语音识别、机器翻译、问答系统和聊天机器人等。基石模型意味着人工智能领域正在朝着一种新的范式发展——大型的预训练模型可以作为广泛的应用程序的基础。基石模型的优点在于其能够通过预训练学习大量的语言表示,从而可以在未经过标记的数据上进行微调,并在各种任务上表现出色。
应当注意到税收领域基石模型的独特性。目前比较成熟的基石模型的例子包括OpenAI开发的GPT、阿里云的自然语言处理任务基石模型等。但上述较为成熟的模型都主要基于通用的自然语言进行处理。而在税收领域,基石模型的应用则需要深刻考虑其独特的行业属性。一方面,相较于通用场景的自然语言,税收法律的很多内容没有形成文本,即税收活动中存在大量的非文本的逻辑空间;另一方面,即便在已经形成确定性文本的税收法律中,其文义也具有独特的专业属性,在一些通用的基石模型中,无法对税收专业问题给出合理答复和建议。因此,构建税收领域的基石模型,必须依赖于税收系统和税收数据才能实现。
从提升税法遵从度的视角看,基石模型具有深刻的变革作用。首先,基石模型在下游的应用场景具有广泛的应用。因为基石模型对数据的强大处理和支配能力,其在涉税领域的应用将能够极大提升税收数据的使用效率。同时,基石模型也可以应用到税源管理、风险识别、纳税服务等场景。当然,这些场景的应用需要配套的税收征管制度的引领。其次,以ChatGPT为代表的生成式人工智能区别于传统的分析式人工智能,其可以利用海量的既有数据来创造新的内容,这意味着生成式人工智能可以进一步激发涉税数据的应用潜力,例如丰富传统的人工创造的涉税风险监控体系。最后,基石模型是具有普适性的模型,可以根据纳税人的不同特点如行业和企业生命周期等确定合适的着力点,并通过基于征纳双方的反馈进行强化学习,寻找提供税收征管和纳税服务的最优解。
(二)大数据模型体系
构建合理的大数据模型体系将帮助大模型更好地学习数据分布和规律,提升对于未知数据的预测能力,从而提高模型的个性化和智能化程度。大模型和大数据模型之间是相互依存、相互促进的关系。大模型需要通过对大数据的学习,提取出更为复杂的特征关系,实现更加精准的任务。因而,大数据建模应考虑从业务领域和场景定义出发,使数据的分布更加科学,大幅提升数据使用率。
我们认为,生成式人工智能与税法遵从场景的深度融合,意味着在以实现税收征管数字化转型为目标的前提下,要不断加强以业务特征工程为基础的大数据模型体系的构建。要从业务层面和技术层面,按照生成式人工智能与税法遵从能力的规律进行设计、改进和完善,以税种为基准,逐步构建面向纳税行为特征和纳税关系理解的大数据模型体系。
(三)应用场景体系
以ChatGPT为代表的生成式人工智能的应用,可以帮助纳税人理解税法,但是并不能代理征纳双方完成纳税义务,例如代替纳税人缴纳税款、代表税务机关作出税务执法文书等。因此,应当厘清生成式人工智能在税法遵从服务领域的应用场景。具体看,生成式人工智能在税收政策宣传、税收风险管理、纳税服务优化等方面可以发挥其强大的作用。
1.提高税法宣传力度,提高税法遵从意识。以ChatGPT为代表的生成式人工智能,具备连续对话、上下文理解、用户意图捕捉等能力,能胜任回答问题、撰写文章、文本摘要、语言翻译等任务。因此,可以构建税收领域的生成式人工智能,充分利用生成式人工智能的优势,在传统的税收宣传途径之外拓宽税收法规宣传方式,提高纳税人的税法遵从意识。
2.精确税收风险管理,辅导纳税人完成遵从动作。传统的税收风险管理以税务审计为主,即依赖税务人员的经验与技能水平,对特定时点或区间内的涉税数据进行加工处理。在海量涉税数据和有限征管资源的约束下,传统的税务审计往往以事后稽查为主,在应用时往往面临程序周期长、识别精度低、工作成本高等问题。而生成式人工智能则能够以预测各纳税人的税务风险为目标,通过对税法遵从数据的学习和反馈,识别不同纳税人或同一纳税人在不同阶段的涉税风险,辅导纳税人事前、事中实现税法遵从。
3.优化纳税咨询体验,提高税法遵从能力。在纳税服务领域,纳税人需要得到各种关于税收政策、纳税申报等方面的信息。可以使用生成式人工智能为纳税人提供快速、准确的信息。生成式人工智能利用其强大的文本处理能力,利用机器学习等技术能够对海量数据进行消化处理,如同在入职考试前刷大量题库,将繁杂的税收知识以数据形式牢记“脑中”,并能够在后续的实际交互工作中不断学习新的税收知识重组已有的知识架构,改善自身性能,实现“脑中”税收知识的不断更迭,从而驱动纳税服务便捷、智能、高效,帮助纳税人提高税法遵从能力。
(本文为节选,原文刊发于《税务研究》2023年第6期。)