一些实际工作中的泛函测评（长期更新）

ChevalRita

关于DFT计算中泛函测评的问题，思想家公社的sobereva写了一篇很好的文章（谈谈量子化学中什么样的benchmark才有意义），以避免初学者将时间浪费在盲目的泛函测评中。总体而言，各种泛函的优劣早有公论，通常可以按照经验选择。但有时我们会发现部分体系比较蹊跷怪异，往常的经验未必很好涵盖；再加上新泛函层出不穷，很容易跟不上时代，因此在实际工作中，进行有目的性的泛函测评时常还是有意义的。本楼集中发布一些测评信息，也欢迎大家发布自己的测试结果。

ChevalRita

1. 通用的测试方法
由于ORCA对新泛函的支持很好，建议使用ORCA进行泛函测评，非常方便。由于手动建立输入文件比较繁琐，这里给出一个有用的测评脚本，可以自动化生成输出文件。
这个脚本由GPT5生成。感谢现代AI，让编程效率提高一个数量级。根据我的prompt，大家也很容易知道这个脚本怎么使用：

请为我写一个用于生成ORCA泛函测试输入文件的bash脚本。要求：
它接受2个参数：template_name和functional_list。template_name是一个.inp文件名，而functional_list是一个纯文本文件，每一行是一个泛函名字。假如template_name叫做xxx.inp，则针对functional_list的每一行（假如是aaa），将在jobs目录（如果没有则新建一个）下生成一个名为xxx_aaa.inp的文件，将xxx.inp中的{name}替换为aaa。如果aaa中间有空格，则生成的文件名取第一部分。例如，假如这一行是b3lyp d3bj，则生成的文件名为jobs/xxx_b3lyp.inp，内容中{name}被替换为b3lyp d3bj。
为了方便你理解，以下是一个.inp文件示例，叫做bienol.inp：
%pal nprocs 28 end
%maxcore 2000
! def2-qzvp def2-qzvp/c rijcosx {name}
*xyz 2 1
  C                 -2.93920800    0.88058700   -0.01165500
 C                 -1.56885300    1.02250400   -0.00899400
 C                 -0.73161900   -0.06663600   -0.28324100
 C                 -1.35851800   -1.29151500   -0.56149500
 C                 -2.72824200   -1.38826700   -0.55820600
 H                 -3.60499500    1.71178800    0.19933100
*
以下提供一个functional_list文件的内容示例：
B3LYP/G	D3BJ
O3LYP
X3LYP
在这个例子中，最后需要生成jobs/bienol_b3lyp.inp，jobs/bienol_o3lyp.inp，jobs/bienol_x3lyp.inp三个文件。

以下是这样得到的自动化测试脚本：

#!/usr/bin/env bash
set -euo pipefail

if [ "$#" -ne 2 ]; then
    echo "用法: $0 template_name functional_list"
    exit 1
fi

template="$1"
funclist="$2"

if [ ! -f "$template" ]; then
    echo "错误: 模板文件 '$template' 不存在" >&2
    exit 1
fi

if [ ! -f "$funclist" ]; then
    echo "错误: 功能列表文件 '$funclist' 不存在" >&2
    exit 1
fi

mkdir -p jobs

\# 模板基础名（去掉 .inp 后缀）
basename_noext=$(basename "$template" .inp)

\# 逐行读取（包括最后可能没有换行的行）
while IFS= read -r line || [ -n "${line-}" ]; do
    \# 删除行首尾空白及可能的回车（处理 CRLF）
   line_trimmed="$(printf '%s' "$line" | tr -d '\r' | sed 's/^[[:space:]]*//;s/[[:space:]]*$//')"

    \# 跳过空行
    if [ -z "$line_trimmed" ]; then
        continue
    fi

    # 取第一部分（空白前的那一段）
    first_part="$(printf '%s' "$line_trimmed" | awk '{print $1}')"

    # 将文件名部分转为小写并把不安全字符替换为下划线
    # 允许的字符: a-z, 0-9, dot, underscore, hyphen
    sanitized="$(printf '%s' "$first_part" | tr '[:upper:]' '[:lower:]' | sed 's/[^a-z0-9._-]/_/g')"

    outfile="jobs/${basename_noext}_${sanitized}.inp"

    # 使用 awk 进行替换，避免 sed 替换中的转义问题
    awk -v r="$line_trimmed" '{ gsub(/\{name\}/, r); print }' "$template" > "$outfile"

    echo "生成 $outfile"
done < "$funclist"

在ORCA 6中，直接内置了将近100种泛函的关键字；除此之外，也可以使用LibXC调用没有内置的泛函。以下是我从ORCA 6手册上复制过来的84个杂化和双杂化列表。有需要的人也可以把纯泛函加进去。

B3LYP/G	D3BJ
O3LYP	
X3LYP	
B1P	
B3P	
B3PW	D3BJ
PW1PW	
mPW1PW	
mPW1LYP	
PBE0	D3BJ
REVPBE0	D3BJ
REVPBE38	D3BJ
BHANDHLYP	D3BJ
TPSSh	D3BJ
TPSS0	D3BJ
M06L	
M06	
M062X	
PW6B95	D3BJ
B97M-V	
B97M-D3BJ	
B97M-D4	
SCANfunc	D3BJ
r2SCAN	D3BJ
r2SCANh	D3BJ
r2SCAN0	D3BJ
r2SCAN50	D3BJ
wB97
wB97X
wB97X-D3
wB97X-D4
wB97X-D4rev
wB97X-V
wB97X-D3BJ
wB97M-V
wB97M-D3BJ
wB97M-D4
wB97M-D4rev
CAM-B3LYP
LC-BLYP
LC-PBE
wr2SCAN
B2PLYP
mPW2PLYP
B2GP-PLYP
B2K-PLYP
B2T-PLYP
PWPB95
PBE-QIDH
PBE0-DH
DSD-BLYP
DSD-PBEP86
DSD-PBEB95
revDSD-PBEP86-D4/2021
revDOD-PBEP86-D4/2021
Pr2SCAN50
Pr2SCAN69
kPr2SCAN50
wB2PLYP
wB2GP-PLYP
RSX-QIDH
RSX-0DH
wB88PP86
wPBEPP86
wB97M(2)
wPr2SCAN50
wB97X-2
SCS-PBE-QIDH
SOS-PBE-QIDH
SCS-B2GP-PLYP21
SOS-B2GP-PLYP21
SCS-wB2GP-PLYP
SOS-wB2GP-PLYP
SCS-RSX-QIDH
SOS-RSX-QIDH
SCS-wB88PP86
SOS-wB88PP86
SCS-wPBEPP86
SOS-wPBEPP86

准备好相关文件后，让脚本自动在jobs下生成大量输入文件，然后使用合适的for循环批量提交即可。

等到全部运行完成后，使用如下脚本进行分析：

#!/bin/bash
set -euo pipefail

# 至少需要两个参数：至少一个化合物名 + functional_list
if [ "$#" -lt 2 ]; then
    echo "用法: $0 compound1 [compound2 ...] functional_list"
    exit 1
fi

# functional_list 是最后一个参数
funclist="${@: -1}"   # 最后一个参数
# 化合物列表是除最后一个参数以外的所有参数
compounds=("${@:1:$#-1}")

if [ ! -f "$funclist" ]; then
    echo "错误: 功能列表文件 '$funclist' 不存在"
    exit 1
fi

# 遍历 functional_list 中的每一行
while IFS= read -r line || [ -n "$line" ]; do
    # 去掉首尾空白
    line_trimmed="$(printf '%s' "$line" | tr -d '\r' | sed 's/^[[:space:]]*//;s/[[:space:]]*$//')"
    [ -z "$line_trimmed" ] && continue

    # 取第一部分（生成输入时的文件名部分）
    first_part="$(printf '%s' "$line_trimmed" | awk '{print $1}')"
    sanitized="$(printf '%s' "$first_part" | tr '[:upper:]' '[:lower:]' | sed 's/[^a-z0-9._-]/_/g')"

    # 打印原 functional_list 行
    printf "%s" "$line_trimmed"

    # 遍历所有传入的化合物名
    for prefix in "${compounds[@]}"; do
        outfile="jobs/${prefix}_${sanitized}.out"
        if [ -f "$outfile" ]; then
            # 提取能量
            energy=$(awk '/FINAL SINGLE POINT ENERGY/ {print $NF}' "$outfile" | tail -n 1)
            if [ -n "$energy" ]; then
                printf " %s" "$energy"
            else
                printf " NA"
            fi
        else
            printf " NA"
        fi
    done

    echo
done < "$funclist"

使用方法为：

./analyze_orca_results.sh aaa bbb functional_list
接受一个参数列表，形如aaa bbb ccc等，数量不限，对应每个化合物的名称。针对functional_list里的每一行xxx，检查jobs下对应的.out输出文件aaa_xxx.out, bbb_xxx,out等，找到能量数值，并以xxx（泛函） 化合物aaa的能量 化合物bbb的能量...的格式按照行输出。

ChevalRita

一个紫精衍生物的烯醇化和氧化还原行为
在《大学化学》上介绍了一个关于紫精衍生物的变色响应实验（多功能变色材料紫精化合物的合成与可视变色传感）。这个化合物的变色与烯醇异构、氧化还原或碱导致的电离有关。尽管它看起来是个简单有机体系，但不妨碍我们试探一下常见泛函的表现。

Image description

本楼中，探究上述5个反应：isomer1和isomer2是双正离子的烯醇异构化，其中biketone为非平面结构，在烯醇化后发生平面化，导致共轭体系大小发生显著变化。PA反映了双正离子生成烯醇阴离子的能力，而EA1反映了双正离子的还原电位。另外还考察了一个异构化反应isomer3，它可能体现了各种理论水平对阴离子-pi或其他非共价作用的描述能力。在PBE0-D3BJ/def2-SVP/SMD(DMSO)水平下得到各物种的几何结构，以DLPNO-CCSD(T)/def2-QZVPP水平下的气相电子能量作为测试标准，各泛函下的反应能量（电子能量）使用def2-QZVPP基组在气相下计算。选择def2-QZVPP是为了最大化发挥双杂化泛函的潜力，以免由于基组过小导致对双杂化泛函产生不公正对待。凡是ORCA自带D3BJ参数的，都加了D3BJ。除此之外的则没有加额外的色散校正。

让我们来看测试结果。所有能量均以kcal/mol为单位，能量误差填色显示，紫色和红色分别表示负误差和正误差，背景颜色越浅表示误差越小。
Image description

表1-1 meta-GGA和杂化泛函部分

Image description

表1-2 双杂化泛函部分

Image description
表1-3 Grimme的3c类方法部分

绝大部分理论水平的平均无符号误差（MUE）在5 kcal/mol上下，且大部分误差是由PA项贡献的，即电离生成烯醇负离子的过程。与isomer1相比，isomer2的误差总体更大，这显然是因为发生第二次烯醇异构化后体系结构变化更加明显。

几个kcal/mol的误差虽然看着还可以，但考虑到这是一个纯有机分子、而且这些都只是反应热力学，我们的眼光应该更高一些，尽可能追求更高的精度。特别是对于烯醇异构化，我们可能会关心不同形式的定量占比，定量精度就显得尤为重要。几个对于有机分子通常默认使用的泛函如PBE0、M06-2X、B3LYP等表现都一般，MUE都在5 kcal/mol左右，且各项误差的分布比较平均。ORCA默认的B3LYP比Gaussian默认的B3LYP/g略好一丝。虽然看似无功无过，但如果要用来评估各成分的含量，就会导致显著的错误。

与Jacob's ladder上的梯级不同，表现最好的几个泛函都是杂化泛函：BHandHLYP，MUE=1.98 kcal/mol；wB97M-V, MUE=1.29 kcal/mol；wB97M家族的其他各个成员也都很优秀。wB97X家族中的wB97x-D3，MUE=2.95 kcal/mol也名列前茅。格外值得一提的是，对于烯醇异构化，wB97M家族的误差都在零点几kcal/mol范围内，定量精度很高。Gausssian支持的wB97XD虽然采用DFT-D2，但应该也是不错的，至少比较适合结构优化使用。

相比之下，参与测试的34个双杂化泛函中没有一个打得过上述佼佼者的。在参与测试的泛函中间，随着梯级的提升，并没有观察到精度有质的飞跃。这和我一直以来的观点一致：与恰当选择的杂化泛函相比，双杂化泛函没有显著的优势。

Grimme的3c系列方法中，HF-3c表现很糟糕，这是容易理解的。两种基于纯泛函的3c方法对于去质子过程（PA）表现糟糕，但在其他方面的优秀表现将MUE拉回了一般水平。基于杂化泛函的PBEh-3c和wB97X-3c稍微好一点，但也打不过原生的wB97X或wB97M家族。

总结：
在大共轭分子的决斗场中，今日的胜负是：BHandHLYP，胜利；wB97X和wB97M家族，胜利；其余各泛函，败北。

再来看一下耗时.，可见杂化泛函内部的耗时差距在3_{4倍，我们最习惯、并且觉得挺快的B3LYP、PBE0属于中等，加上w调控的泛函以及M06系列的耗时一般是“中等”杂化泛函的2倍。O3LYP特别慢。双杂化的耗时比杂化高5倍左右。}
Image description

Azulena

ChevalRita 很有价值的工作！不过有两点值得一说。
疑问：为啥表格里B3LYP/G到X3LYP的这三个泛函重复写了两遍，以及没有B3LYP不带/G的版本（用VWN5，而不是像Gaussian那样用VWN3）呢？
提议：上述计算的总耗时和SCF迭代圈数也可以统计一下，看看精度和耗时的平衡如何。

ChevalRita

Azulena 两种B3LYP的差异大概在明天补充一下。有的东西重复纯粹是因为粘贴错了，下次编辑时一并修剪。
关于耗时，各种泛函虽然有差别，但通常没到能对用不用某种泛函产生决定性影响的程度，所以不打算每次都统计了。明天我会选择几个代表性的例子展示一下。

ChevalRita

2. Pincer配合物对烯烃的迁移插入

本楼研究如下4个反应能垒：
Image description

虽然关于过渡金属配合物的反应有很多测评工作，主族类似物的情况则鲜有人系统测试过。这个反应包含了如下要素：主族（Mg, Sn）、d区（Pd）和ds区（Zn）过渡金属配合物的反应能垒；大体积配体可能涉及的色散作用。构型优化在PBE0-D3BJ/def2-SV(P)/SMD(toluene)水平下进行，以DLPNO-CCSD(T)/def2-TZVPP水平的气相单点电子能量作为基准。

2.1 DFT方法结合def2-SV(P)基组
使用小基组时的能量测试情况可以直接指导构型优化的泛函选择。因此，本部分选择了39种GGA、meta-GGA和杂化泛函进行测试，它们中的大部分是有可能用于构型优化的。数据单位、填色含义等与楼上相同。

Image description

表2.1 DFT方法结合def2-SV(P)基组的能量测试情况

即使使用def2-SV(P)这么小的基组，大部分泛函也都表现出了可以接受的定量精度。总体上杂化泛函是要好于非杂化的。在所有参与测试的泛函中，mPWPW、BHandHLYP、M06-2X以及wB97X家族相对较好。特别是wB97X-D3的优秀表现出乎意料，对于4个能垒都能达到1 kcal/mol左右的相对误差，MUE只有0.68 kcal/mol！而其他的几个优等生则比较偏科，对Pd的误差显著高于对其他元素。有趣的是，虽然M06-2X一般被认为不适合过渡金属，但在这个个案中它反而对Pd的表现是极好的，误差主要出现在Mg和Zn上。

你可能会觉得，这些表现是由于泛函自身误差和小基组带来的误差互相抵消导致的巧合。那么当基组扩大到def2-TZVP后又如何呢？

2.2 DFT方法结合def2-TZVP基组

这部分主要是用于指导单点计算的泛函选择，因此涉及了包含从纯泛函到双杂化在内的90种泛函。

Image description

表2.2.1 DFT方法结合def2-TZVP基组的能量测试情况（非双杂化）

Image description

表2.2.2 DFT方法结合def2-TZVP基组的能量测试情况（双杂化）

这次双杂化开始呈现出了相对普遍的优势，但个体差异也不小，表现优异的各项误差能够到零点几个kcal/mol以内（如revDSD-PBEP86及相关家族、PBE-QIDH、SCS(SOS)-PBE-QIDH）；表现一般的误差在2-4 kcal/mol以内，跟普通泛函水平相近；但也有表现离谱的，误差高达8 kcal/mol左右。可见双杂化的选择比较关键，由于现存的针对双杂化泛函的广泛测评不多、人们对此不太熟悉，初学者还是不太容易一下子就找到合适的。
而另一方面，普通泛函中，表现优秀的也大有人在。其中以wB97X和wB97M家族为代表，其中wB97M-V和wB97M-D3BJ也能达到零点几kcal/mol的精度。小基组任务中表现较好的M06-2X在大基组下性能也比较稳定，不过mPWPW、BHandHLYP等就有点掉链子了，可见def2-SV(P)下有的泛函表现超好属于巧合。使用def2-TZVP基组时，B3LYP/g、r2scan50、PW1PW成为了新秀，误差在1₂ kcal/mol，与wB97x-D3属于同一梯队，不过依然不敌wB97M-V系列。
综合考虑，非常推荐使用Gaussian的wB97XD进行构型优化、使用ORCA的wB97M-V或wB97M-D3BJ进行单点计算。如果要追求更高精度，与其费心选择双杂化泛函，更建议直接上DLPNO-CCSD(T)进行单点计算。

总结：
在这个主族和过渡金属催化反应的决斗场中，今日的胜负是：wB97X和wB97M家族，胜利。

wmshi

非常好测试，有两个小疑问/建议：

作为reference的DLPNO-CCSD(T)计算具体设置是什么？我之前测过DLPNO-CCSD(T)设置对35原子左右Rh催化反应的影响：

以DLPNO-CCSD(T1)-TightPNO/cc-pV5Z(-PP)为参考

同样使用DLPNO-CCSD(T1)-TightPNO，def2-QZVPP MAE 0.40 kcal/mol；def2-TZVPP MAE 1.29 kcal/mol；cc-pVTZ(-PP) 1.11 kcal/mol；
cc-pV5Z(-PP)关闭iterative triples MAE 0.66 kcal/mol
DLPNO-CCSD(T1)-NormalPNO/def2-QZVPP MAE 0.78 kcal/mol
DLPNO-CCSD(T1)-TightPNO/def2-TZVPP，用RI-MP2/def2-(T/Q)ZVPP外推相关能和HF至CBS MAE 0.45 kcal/mol

def2-TZVPP可能不能发挥DLPNO-CCSD(T)的全部实力，同时开启iterative triples（T1）对有过渡金属的体系应该也有一些提升。算力有限的情况下，RI-MP2辅助外推也是可行的。

~~2. 有没有计划测试PW6B95?~~对不起我是瞎子

ChevalRita

wmshi 经过20天的扩大测试（使用def2-QZVPP比def2-TZVPP慢出一个数量级），已经以DLPNO-CCSD(T)/def2-QZVPP结合TightSCF TightPNO计算结果作为基准更新在了表格里。def2-TZVPP还是能差出1点几个kcal/mol的。
PW6B95在表格中M062X下方。

ChevalRita

双核Ag(I)配合物和I+的相互作用
这是文献分享：晶体中I+与Ag+的成键中提到的例子，表现出新奇的Ag+---I+成键。整体分子结构如下，是Ag2(OTf)4 2-和两个I(Op-MePy)2+的复合物：

本次测评依次比较Ag2(OTf)4 2-结合第一个和第二个I(Op-MePy)2+的电子能量变化。构型在wB97xD/def2-TZVP水平下优化得到，除了3c方法外，DLPNO-CCSD(T)和DFT单点使用def2-TZVPPD基组进行。这个大小下进行DLPNO-CCSD(T)已经极为吃力了。
以下为测试结果，为了紧凑起见全都合并在一张图里，数值单位为kcal/mol。

这个例子看似怪异，但常用泛函表现都还不错。PBE、TPSS、TPSSh、revPBE和r2scan0都能达到零点几个kcal/mol的精度；r2scan-3c也很好。B3LYP比较平庸，wB97x-D3虽然也不错但并非最顶尖的。wB97X-V和wB97M-V依旧稳定发挥。双杂化一侧，除了DSD-PBEP86、wB2PLYP还可以之外，大部分都表现糟糕，远不如杂化泛函的普遍水平。

今日的胜负：经典常用于过渡金属的泛函的胜利，双杂化泛函的完败。

ChevalRita

Co(I)、Co(II)、Co(III)配合物的自旋态
这里测试3个联吡啶Co配合物。由于工作未发表，精确结构无法透露，但可以说的是分别为Co(I)到Co(III)，配体是常见胺碱。测单重态-三重态能量差，或二重态-四重态能量差。这个试验场充分体现了过渡金属体系中静态相关、动态相关及SIE的互相平衡。

（有的方法在ORCA里反复检查多轮波函数稳定性-重新优化之后仍然无法得到稳定波函数，这些方法对应数据处写了NA）
这个体系的测评结果让人大跌眼镜，常见的用于过渡金属的泛函如PBE0、TPSS、TPSSh等全都误差极大，在所有参赛选手中只有revPBE38和BHandHLYP两者表现优秀，前者相当小众，后者则一般认为不宜用于过渡金属。另外，同样认为不宜用于过渡金属的M06-2X也表现不错。双杂化泛函表现差异很大，PBE-QIDH和Pr2SCAN69是为数不多的胜出者。
这里的胜出者都是些一般认为不能正确描述较强静态相关体系的高HF成分泛函，可能提示在这些问题里SIE比静态相关更为重要。