spark运行报:java.lang.RuntimeException: Error while encoding: java.lang.ArrayIndexOutOfBoundsException:

报错前提:在使用 spark 读取 Hadoophdfs 上的 txt 文件,进行相关的操作之后,转为 orc 格式,期间报 java.lang.RuntimeException: Error while encoding: java.lang.ArrayIndexOutOfBoundsException:
(…class org.apache.spark.unsafe.types.UTF8String, StringType, fromString, validateexternaltype(…)

具体报错内容(照片有点糊):
在这里插入图片描述
最后发现问题是 txt 文件的字体编码格式有问题,它们字符大小不一样,所以在代码里面进行匹配时会报ArrayIndexOutOfBoundsException。我此处 txt 文件正确应该为:UNIX GB2312(Simplified)INS [图2],但上传的 txt 文件为:UTF-8 INS [图3]

在这里插入图片描述
图2 ↑
图3 ↓

在这里插入图片描述

(附:我用的 notepad++ 打开的,在右下角会有文件的编码格式)