您的位置:首页»社会科学»教育学>>河北省PSC说话题项评分现状及对策研究

河北省PSC说话题项评分现状及对策研究

作 者:何秀敏 曹 昭 (河北省语言文字培训测试中心,河北 石家庄 050000)

基金项目:2015年度河北省社会科学发展研究课题“河北省PSC评分现状及对策研究”(YWZX201512)

摘   要:实施计算机辅助普通话水平测试手段后,测试员在评测第四题过程中存在评分差异,影响了普通话水平测试质量和信度,需要对测试员进行提高培训,保障评分差异能控制在合理范围之内。
关键词:PSC;说话题项;评分现状;对策

计算机辅助普通话水平测试的施行,使测试员评分的过程和环境发生了很大变化,需要我们最为关注的一方面就是测试质量。测试质量是测试工作的生命线,是使这项公益事业得以长久健康发展的根本保障。在整个机辅测试过程中,除了计算机完成应试人前三题项的评分外,应试人“说话”题项的评分、一级乙等复审、二级以下抽查复审、异常数据评分、第四题项评分偏差复审等工作都是由测试员人工评测完成的。测试员对评分标准掌握理解的熟练程度和评分的准确程度直接影响到整个测试工作的质量。
尽管我们遵循每三年对全省普通话水平测试员进行一轮提高培训的普通话水平测试管理规定,但测试员毕竟是兼职在从事这项工作,而且受测试站测试规模的局限,有相当一部分测试员每年的测试数量有限。随着全省普通话水平测试工作的不断进展,测试员测试评分过程中存在的问题也逐渐显现。
一、测试员在说话题项评分过程中存在的问题
随着人工测试的减少,机辅测试推广应用,测试员评分问题最多的项就是说话部分。在这部分表现最突出的问题就是评分差异。实行机辅测试之后,测试员独立打分,测试环境发生了质变,缺少了前三题做的比较铺垫,缺少了两名测试员共同打分的探讨条件,测试员在心理上产生了一定程度的不自信,主观性程度进一步增强,导致第四题项评分差异较大。
我们对2015年的机辅测试数据进行了分析统计,先后共收集、复审了28728份有效测试数据。我们对测试员第四题项的总评分情况和“语音标准程度”、“词汇语法规范程度”、“流畅度”、“缺时”、“离题雷同”、“无效语料”六个小项的评分差异进行了统计。
在28728份数据中,应试人整个第四题项的评分差异在5分以上的有670人,占参测人数的2.33%。670人中一级乙等5人,占0.75%;二级甲等153人,占22.8%;二级乙等333人,占49.7%;三级179人,占26.7%。我们在培训班上听力考试时,要求评分差异控制在等级分差的30%,从以上等级分布看百分比,好像等级越高,差异的数量越少,等级越低,差异的数量越多,似乎合乎培训班上的评分差异要求,但我们的前提是分差在5分以上,而且是经过培训之后的测试员的正式测试结果。试想,按照培训班上等级分差的浮动范围,二级乙等应该是围绕标准分数,上下浮动等级分差7分(87-80)的30%,分数差异最多不能超过4.2分,上述数据中一个二级乙等的成绩,两名测试员单第四题项评分差异就达到5分,显然其中某个或两个测试员测试质量是不合格的。所以,可以认为测试员对这670名应试者的评测成绩是错误的,是由于测试员的测试水平高低不一造成的,而应试人则是无辜的。
我们再看说话题项各小项的评分情况。
1.语音标准程度
我们在给应试人说话题项进行语音归档时,首先考虑的应该是应试人在3分钟的说话过程中,声韵母及语调和标准的普通话相比存在的差异程度(即标准程度),然后结合其方言特征,定性归档。具体操作时,应遵循我们一贯强调的定性定量相结合原则,不要忽略定量(应试人表现出的语音错误数量)对语音归档的重要参考作用。
在28728份机辅测试数据中,两名测试员的评分差异在5分以上的数据有73人,占总数的0.25%。这部分应试人的成绩应该视为错误评定,无效。其中一级乙等1人,占73人的1.37%;二级甲等20人,占27.4%;二级乙等35人,占47.95%;三级13人,占17.81%;不入级的4人,占5.48%。总体看评分差异主要存在于二级乙等和三级水平范围。也反映出测试员对在这一范围的成绩评测准确度不够。语音标准程度分为6档,前四档每档分差为2分,第五、六档分差为3分,如果两名测试员评分差异在5分以上,至少跨越了一档,甚至两档。这在测试中是不允许出现的。其中一名测试员必定评判严重失误。评分差异在4分的有369人,占总数28728人的1.28%。其中一级乙等2人,占369人的0.5%;二级甲等174人,占47.15%;二级乙等167人,占45.26%;三级22人,占5.96%;不入级4人,占1.08%。可见二级甲等和二级乙等尤其是二级乙等依然是准确进行语音归档的难点,而以上数据也应列入必须复审的范围。
2.词汇语法评分差异
关于词汇语法扣分的关注点,主要是看应试人在3分钟的说话过程中有无典型性的方言词汇及语法出现,同时看有词语搭配,语法方面的问题,对于后者,我们可以根据实际情况酌情扣分。
仍以28728名应试者测试数据为例,我们对各测试站机辅测试成绩数据分析结果表明,两名测试员单词汇语法项评分差异在3分以上的49人,占0.17%,这些数据应列为必须复审的对象。评分差异在2分的有260人,占0.91%,这部分数据我们应给予重点关注。
3.流畅度评分差异
关于这一项评分,要和缺时区分开,流畅度指没有达到纪录缺时的程度,但考生说话欠流利,有磕磕绊绊的感觉。在以上的2万多份数据中,两名测试员流畅度评分差异在2分以上的有728人,占2.53%。应该说对这些测试数据我们也应加强抽查工作,以保证测试员评分能较为客观地体现考生的真实水平。
4.缺时项评分差异
按照国家语委的评分标准,测试员应从应试人无法继续说话的第6秒开始记为一次缺时,最后扣分按累计缺时的总时间计算。在实际测试中,机辅测试系统为测试员打分提供了应试人的缺时时长,但我们只能将其作为评测的参考,具体扣分分值需要我们测试员根据评测时的具体记录和感觉来掌握,做到分秒不差不太容易。缺时这一项产生的评分差异整体不大,但个别测试员忘记了评分标准,在对28728名应试者进行评测时,只有一位高校测试员在评分差异项扣了考生7分。这属于执行评分标准发生了错误。但我们必须重视并加以纠正,也许考生就因为这1分之差由二级乙等降为三级甲等。
5.离题雷同评分差异
此项评分存在的问题较复杂。关于离题,俗称说话跑题,人工测试评分标准中没有此项规定,有些老测试员在评测说话题项时形成了习惯,在机辅测试评分时往往容易忽略此项评分,以至于形成漏判。由于测试员不能象人工测试那样现场提示,在具体评测时,需要按照应试人说话内容离题的程度酌情扣分。
对于不同测试员来说,由于彼此之间平时的阅读面宽窄不同,对于应试人出现的雷同内容有的测试员看到过,扣了雷同分,有的没看过,没有扣分,这就造成了评分差异;对于同一名测试员来说,如果不同考生出现的雷同内容相同,测试员在评测后面考生时才发现和前面考生的内容一样,但前面考生的评测已经完成,如果扣后者的雷同分,这就造成了评分的不公,标准前后不统一,如果不扣,则是对评分标准执行不严。对于这种情况,测试员应在评分表上注明情况,向测试管理人员说明。这也是今后需要评测系统研发人员和评分标准制定者共同研究完善的问题。
在前面提到的2万多份数据中,离题雷同评分差异在3分以上的有65人,占0.23%,并不多,但这对应试者是不公平的。应试人到底有没有这样的问题,一个肯定一个否定,导致应试人成绩分差最少是4分,对二级乙等偏低水平的应试人来说,4分的分量是相当重的,所以我们一定要仔细分析,准确判断,给考生以客观的评价。
6.无效语料评分差异
无效语料指应试人说话没有实质内容,空耗时间。表现形式大致有两类,一类是全程“无效语料”,一类是部分“无效语料”。全程“无效语料”,是指说了3分钟的话,却没有任何信息。
此项问题评分标准以无效语料占时长短为依据,酌情扣分。国家语委规定,考生在3分钟说话过程中,无效语料超过5秒则开始计时,累计计算,按总的占时长度扣分。具体操作和缺时问题的处理一致,不好做到时间上的分秒不差,测试员根据实际掌握的情况酌情扣分。
二、针对当前的普通话水平测试评分现状之对策研究
(一)各测试站应进一步加强测试质量抽查和复审的工作力度。每个批次的测试任务都要安排业务水平高,工作认真负责的测试员进行质量复审和抽查工作。管理者要对测试员的打分情况及时了解,出现问题及时解决。
(二)加强测试员的业务学习和交流。测试员大都是兼职,利用业余时间参加测试,所以只有加强交流学习,经常熟悉评分标准,才能使测试水平不断提高。我们应发挥测试员骨干作用,带领广大测试员认真学习业务,提升测试水平,确保我省测试质量。
(三)各测试站负责人和管理人员要熟悉业务,熟悉管理系统和评测系统,对测试员的评分情况要及时了解,对工作不认真、不负责的测试员要及时帮助,或限期改进,或停止测试。
(四)加强科研理论研究。作为一名测试员应善于在实践基础上进行总结和理论研究,探讨测试工作规律性的东西。
(五)加强对测试员的职业道德教育。测试员要注意维护测试员队伍的良好形象,维护国家级考试的严肃性和权威性,增强责任感和使命感,要对每一位考生负责,履行好测试员的职责,不辜负社会和广大应试者对我们的希望。
(六)研发计算机评测说话题项软件。信息化是当今社会发展的主流,普通话水平测试工作同样需要紧跟时代步伐,在原有机辅测试的基础上研发普通话水平计算机全程评测。我们应该看到计算机辅助普通话水平测试相对于传统人工测试的巨大优势,尽早实现普通话水平测试第四题项的计算机评测。