㈠ 全基因组选择之模型篇
在介绍GS模型之前,我们有必要先来了解一下混合线性模型(Mixed Linear Model,MLM)。混合线性模型是一种方差分量模型,既然是线性模型,意味着各量之间的关系是线性的,可以应用叠加原理,即几个不同的输入量同时作用于系统的响应,等于几个输入量单独作用的响应之和(公式1)。
𝒚= Xβ + e =𝒃 𝟎 +𝒃 1 𝒙 1 +𝒃 2 𝒙 2 +⋯+𝒃 𝒌 𝒙 𝒌 +𝒆 (公式1)
式中𝒚表示响应变量的测量值向量, X 为固定效应自变量的设计矩阵, β 是与 X 对应的固定效应参数向量;𝒃 𝟎 、𝒃 1 、⋯、𝒃 𝒌 是未知参数;𝒙 𝟎 、𝒙 1 、⋯、𝒙 𝒌 是影响各因素的观察值;𝒆是残差。同时需要满足条件: E(y)=Xβ,Var(y)=σ 2 I, y 服从正态分布。
既然是混合效应模型,则既含有固定效应,又含有随机效应。所谓固定效应是指所有可能出现的等级或水平是已知且能观察的,如性别、年龄、品种等。所谓随机效应是指随机从总体中抽取样本时可能出现的水平,是不确定的,如个体加性效应、母体效应等(公式2)。
y = Xβ + Zμ +𝒆 (公式2)
式中 y 为观测值向量; β 为固定效应向量; μ 为随机效应向量,服从均值向量为0、方差协方差矩阵为G的正态分布 μ ~ N(0,G) ; X 为固定效应的关联矩阵; Z 为随机效应的关联矩阵;𝒆为随机误差向量,其元素不必为独立同分布,即 𝒆 ~ N(0,R) 。同时假定 Cov(G,R)=0 ,即G与R间无相关关系, y 的方差协方差矩阵变为 Var(y)=ZGZ+R 。若 Zμ 不存在,则为固定效应模型。若 Xβ 不存在,则为随机效应模型。
在传统的线性模型中,除线性关系外,响应变量还有正态性、独立性和方差齐性的假定。混合线性模型既保留了传统线性模型中的正态性假定条件,又对独立性和方差齐性不作要求,从而扩大了适用范围,目前已广泛应用于基因组选择。
很早以前C.R.Henderson就在理论上提出了最佳线性无偏预测(Best Linear Unbiased Prediction,BLUP)的统计方法,但由于计算技术滞后限制了应用。直到上世纪70年代中期,计算机技术的发展为BLUP在育种中的应用提供了可能。BLUP结合了最小二乘法的优点,在协方差矩阵已知的情况下,BLUP是分析动植物育种目标性状理想的方法,其名称含义如下:
在混合线性模型中,BLUP是对随机效应中随机因子的预测,BLUE(Best Linear Unbiased Estimation)则是对固定效应中的固定因子的估算。在同一个方程组中既能对固定效应进行估计,又能对随机遗传效应进行预测。
BLUP方法最初应用在动物育种上。传统的动物模型是基于系谱信息构建的亲缘关系矩阵(又称A矩阵)来求解混合模型方程组(Mixed Model Equations,MME)的,因此称之ABLUP。Henderson提出的MME如下所示:
式中X为固定效应矩阵,Z为随机效应矩阵,Y为观测值矩阵。其中R和G:
其中A为亲缘关系矩阵,因此可转化公式为:
进一步可转化为:
通过求解方程组,计算残差和加性方差的方差组分,即可得到固定因子效应值 (BLUE)和随机因子效应值 (BLUP)。
作为传统BLUP方法,ABLUP完全基于系谱信息来构建亲缘关系矩阵,进而求得育种值,此方法在早期动物育种中应用较多,现在已基本不单独使用。
VanRaden于2008年提出了基于G矩阵的GBLUP(Genomic Best Linear unbiased prediction)方法,G矩阵由所有SNP标记构建,公式如下:
GBLUP通过构建基因组关系矩阵G代替基于系谱信息构建的亲缘关系矩阵A,进而直接估算个体育种值。
GBLUP求解过程同传统BLUP方法,仅仅在G矩阵构建不同。除了VanRaden的基因组关系构建G矩阵外,还有其他G矩阵构建方法,但应用最多的还是VanRaden提出的方法。如Yang等提出的按权重计算G矩阵:
Goddard等提出的基于系谱A矩阵计算G矩阵:
目前GBLUP已经广泛应用于动植物育种中,并且因为它的高效、稳健等优点,现在仍饱受青睐。GBLUP假设所有标记对G矩阵具有相同的效应,而在实际基因组范围中只有少量标记具有主效应,大部分标记效应较小,因此GBLUP仍有很大的改进空间。
在动物育种中,由于各种各样的原因导致大量具有系谱记录和表型信息的个体没有基因型,单步法GBLUP(single-step GBLUP,ssGBLUP)就是解决育种群体中无基因型个体和有基因型个体的基因组育种值估计问题。
ssGBLUP将传统BLUP和GBLUP结合起来,即把基于系谱信息的亲缘关系矩阵A和基因组关系矩阵G进行整合,建立新的关系矩阵H,达到同时估计有基因型和无基因型个体的育种值。
H矩阵构建方法:
式中w为加权因子,即多基因遗传效应所占比例。
构建H矩阵后,其求解MME过程也是与传统BLUP一样:
ssBLUP由于基因分型个体同时含有系谱记录和表型数据,相对于GBLUP往往具有更高的准确性。该方法已成为当前动物育种中最常用的动物模型之一。在植物育种中,往往缺乏较全面的系谱信息,群体中个体的基因型也容易被测定,因此没有推广开来。
如果把GBLUP中构建协变量的个体亲缘关系矩阵换成SNP标记构成的关系矩阵,构建模型,然后对个体进行预测,这就是RRBLUP(Ridge Regression Best Linear Unbiased Prediction)的思路。
为什么不直接用最小二乘法?最小二乘法将标记效应假定为 固定效应 ,分段对所有SNP进行回归,然后将每段中显着的SNP效应相加得到个体基因组育种值。该方法只考虑了少数显着SNP的效应,很容易导致多重共线性和过拟合。
RRBLUP是一种改良的最小二乘法,它能估计出所有SNP的效应值。该方法将标记效应假定为 随机效应 且服从正态分布,利用线性混合模型估算每个标记的效应值,然后将每个标记效应相加即得到个体估计育种值。
一般而言,基因型数据中标记数目远大于样本数(p>>n)。RRBLUP因为是以标记为单位进行计算的,其运行时间相比GBLUP更长,准确性相当。
GBLUP是直接法的代表,它把个体作为随机效应,参考群体和预测群体遗传信息构建的亲缘关系矩阵作为方差协方差矩阵,通过迭代法估计方差组分,进而求解混合模型获取待预测个体的估计育种值。RRBLUP是间接法的代表,它首先计算每个标记效应值,再对效应值进行累加,进而求得育种值。下图比较了两类方法的异同:
直接法估计 ,间接法估计标记效应之和 M 。当K=M’M且标记效应g服从独立正态分布(如上图所示)时,两种方法估计的育种值是一样的,即 = M 。
基于BLUP理论的基因组选择方法假定所有标记都具有相同的遗传方差,而实际上在全基因组范围内只有少数SNP有效应,且与影响性状的QTL连锁,大多数SNP是无效应的。当我们将标记效应的方差假定为某种先验分布时,模型变成了贝叶斯方法。常见的贝叶斯方法也是Meuwissen提出来的(就是提出GS的那个人),主要有BayesA、BayesB、BayesC、Bayesian Lasso等。
BayesA假设每个SNP都有效应且服从正态分布,效应方差服从尺度逆卡方分布。BayesA方法事先假定了两个与遗传相关的参数,自由度v和尺度参数S。它将Gibbs抽样引入到马尔科夫链蒙特卡洛理论(MCMC)中来计算标记效应。
BayesB假设少数SNP有效应,且效应方差服从服从逆卡方分布,大多数SNP无效应(符合全基因组实际情况)。BayesB方法的标记效应方差的先验分布使用混合分布,难以构建标记效应和方差各自的完全条件后验分布,因此BayesB使用Gibbs和MH(Metropolis-Hastings)抽样对标记效应和方差进行联合抽样。
BayesB方法在运算过程中引入一个参数π。假定标记效应方差为0的概率为π,服从逆卡方分布的概率为1-π,当π为1时,所有SNP都有效应,即和BayesA等价。当遗传变异受少数具有较大影响的QTL控制时,BayesB方法准确性较高。
BayesB中的参数π是人为设定的,会对结果带来主观影响。BayesC、BayesCπ、BayesDπ等方法对BayesB进行了优化。BayesC方法将π作为未知参数,假定其服从U(0,1)的均匀分布,并假设有效应的SNP的效应方差不同。BayesCπ方法在BayesC的基础上假设SNP效应方差相同,并用Gibbs抽样进行求解。BayesDπ方法对未知参数π和尺度参数S进行计算,假设S的先验分布和后验分布均服从(1,1)分布,可直接从后验分布中进行抽样。
下图较为形象地说明了不同方法的标记效应方差分布:
Bayesian Lasso(Least absolute shrinkage and selection operator)假设标记效应方差服从指数分布的正态分布,即拉普拉斯(Laplace)分布。其与BayesA的区别在于标记效应服从的分布不同,BayesA假设标记效应服从正态分布。Laplace分布可允许极大值或极小值以更大概率出现。
从以上各类贝叶斯方法可看出,贝叶斯方法的重点和难点在于如何对超参的先验分布进行合理的假设。
Bayes模型相比于BLUP方法往往具有更多的待估参数,在提高预测准确度的同时带来了更大的计算量。MCMC需要数万次的迭代,每一次迭代需要重估所有标记效应值,该过程连续且不可并行,需消耗大量的计算时间,限制了其在时效性需求较强的动植物育种实践中的应用。
为提高运算速度和准确度,很多学者对Bayes方法中的先验假设和参数进行优化,提出了fastBayesA、BayesSSVS、fBayesB、emBayesR、EBL、BayesRS、BayesTA等。但目前最常用的Bayes类方法还是上述的几种。
各种模型的预测准确度较大程度的取决于其模型假设是否适合所预测表型的遗传构建。一般而言,调参后贝叶斯方法的准确性比BLUP类方法要略高,但运算速度和鲁棒性不如BLUP。因此,我们应根据自身需求权衡利弊进行合理选择。
除了基于BLUP和Bayes理论的参数求解方法外,基因组选择还有半参数(如RKHS,见下篇)和非参数,如机器学习(Machine Learning, ML)等方法。机器学习是人工智能的一个分支,其重点是通过将高度灵活的算法应用于观察到的个体( 标记的数据 )的已知属性( 特征 )和结果来预测未观察到的个体( 未标记的数据 )的结果。结果可以是连续的,分类的或二元的。在动植物育种中, 标记的数据 对应于具有基因型和表型的训练群体,而 未标记的数据 对应于测试群体,用于预测的 特征 是SNP基因型。
相比于传统统计方法,机器学习方法具有诸多优点:
支持向量机(Support Vector Machine,SVM)是典型的非参数方法,属于监督学习方法。它既可解决分类问题,又可用于回归分析。SVM基于结构风险最小化原则,兼顾了模型拟合和训练样本的复杂性,尤其是当我们对自己的群体数据不够了解时,SVM或许是基因组预测的备选方法。
SVM的基本思想是求解能够正确划分训练数据集并且几何间隔最大的分离超平面。在支持向量回归(Support Vector Regression,SVR)中,通常使用近似误差来代替像SVM中那样的最佳分离超平面和支持向量之间的余量。假设ε为不敏感区域的线性损失函数,当测量值和预测值小于ε时,误差等于零。SVR的目标就是同时最小化经验风险和权重的平方范数。也就是说,通过最小化经验风险来估计超平面。
下图1比较了SVM中回归(图A)和分类(图B)的差别。式中ξ和ξ*为松弛变量,C为用户定义的常数,W为权重向量范数,ϕ表示特征空间映射。
当SVM用于预测分析时,高维度的大型数据集会给计算带来极大的复杂性,核函数的应用能大大简化内积,从而解决维数灾难。因此,核函数的选择(需要考虑训练样本的分布特点)是SVM预测的关键。目前最常用的核函数有:线性核函数、高斯核函数(RBF)和多项式核函数等。其中, RBF具有广泛的适应性,能够应用于训练样本(具有适当宽度参数)的任何分布。尽管有时会导致过拟合问题,但它仍是使用最广泛的核函数。
集成学习(Ensemble Learning)也是机器学习中最常见的算法之一。它通过一系列学习器进行学习,并使用某种规则把各个学习结果进行整合,从而获得比单个学习器更好的效果。通俗地说,就是一堆弱学习器组合成一个强学习器。在GS领域,随机森林(Random Forest,RF)和梯度提升机(Gradient Boosting Machine,GBM)是应用较多的两种集成学习算法。
RF是一种基于决策树的集成方法,也就是包含了多个决策树的分类器。在基因组预测中,RF同SVM一样,既可用做分类模型,也可用做回归模型。用于分类时,注意需要事先将群体中个体按表型值的高低进行划分。RF算法可分为以下几个步骤:
最后,RF会结合分类树或回归树的输出进行预测。在分类中,通过计算投票数(通常使用每个决策树一票)并分配投票数最高的类别来预测未观察到的类别。在回归中,通过对ntree输出进行求平均。
有两个影响RF模型结果的重要因素:一是每个节点随机取样的协变量数量(mtry,即SNP数目)。构建回归树时,mtry默认为p/3(p是构建树的预测数量),构建分类树时,mtry为[图片上传失败...(image-10f518-1612450396027)] ;二是决策树的数量。很多研究表明树并非越多越好,而且构树也是非常耗时的。在GS应用于植物育种中,通常将RF的ntree设置在500-1000之间。
当GBM基于决策树时,就是梯度提升决策树(Gradient Boosting Decision Tree,GBDT),和RF一样,也是包含了多个决策树。但两者又有很多不同,最大的区别在于RF是基于bagging算法,也就是说它将多个结果进行投票或简单计算均值选出最终结果。而GBDT是基于boosting算法,它通过迭代的每一步构建弱学习器来弥补原模型的不足。GBM通过设置不同的损失函数来处理各类学习任务。
虽然已经有不少研究尝试了将多种经典机器学习算法应用于基因组预测中,但提升的准确性仍然有限,而且比较耗时。在无数的机器学习算法中,没有一种方法能够普遍地提高预测性,不同的应用程序及其最优方法和参数是不同的。相比于经典的机器学习算法,深度学习(Deep Learning,DL)或许是未来应用于基因组预测更好的选择。
传统的机器学习算法如SVM,一般是浅层模型。而深度学习除了输入和输出层,还含有多个隐藏层,模型结构的深度说明了它名字的含义。DL的实质是通过构建具有很多隐藏层的机器学习模型和海量的训练数据,来学习更有用的特征,从而最终提升分类或预测的准确性。DL算法的建模过程可简单分为以下三步:
在GS领域,研究较多的DL算法,包括多层感知器(Multi-layer Perceptron,MPL)、卷积神经网络(Convolutional neural network,CNN)和循环神经网络(Recurrent Neural Networks,RNN)等。
MLP是一种前馈人工神经网络(Artificial Neural Network,ANN)模型,它将输入的多个数据集映射到单一的输出数据集上。MLP包括至少一个隐藏层,如下图2中所示,除了一个输入层和一个输出层以外,还包括了4个隐藏层,每一层都与前一层的节点相连,并赋予不同权重(w),最后通过激活函数转化,将输入映射到输出端。
CNN是一类包含卷积计算且具有深度结构的前馈神经网络,通常具有表征学习能力,能够按其阶层结构对输入信息进行平移不变分类。CNN的隐藏层中包含卷积层(Convolutional layer)、池化层(Pooling layer)和全连接层(Fully-connected layer)三类,每一类都有不同的功能,比如卷积层的功能主要是对输入数据进行特征提取,池化层对卷积层特征提取后输出的特征图进行特征选择和信息过滤,而全连接层类似于ANN中的隐藏层,一般位于CNN隐藏层的最末端,并且只向全连接层传递信号。CNN结构如下图3所示。
需要注意的是,深度学习不是万能的。使用DL的前提是必须具有足够大和质量好的训练数据集,而且根据GS在动植物方面的研究表明,一些DL算法和传统的基因组预测方法相比,并没有明显的优势。不过有一致的证据表明, DL算法能更有效地捕获非线性模式。因此,DL能够根据不同来源的数据通过集成GS传统模型来进行辅助育种。总之,面对将来海量的育种数据,DL的应用将显得越来越重要。
以上是GS中常见的预测模型,不同分类方式可能会有所区别。这里再简单介绍一下上述未提及到但比较重要的方法,其中一些是上述三类方法的拓展。
再生核希尔伯特空间(Reprocing Kernel Hilbert Space,RKHS)是一种典型的半参数方法。它使用高斯核函数来拟合以下模型:
RKHS模型可采用贝叶斯框架的Gibbs抽样器,或者混合线性模型来求解。
GBLUP仍然是动植物育种中广泛应用的方法,它假定所有标记都具有相同的效应。但在实际情况中,任何与目标性状无关的标记用来估计亲缘关系矩阵都会稀释QTL的作用。很多研究对其进行改进,主要有几种思路:
沿用以上的思路,sBLUP(Settlement of Kinship Under Progressively Exclusive Relationship BLUP, SUPER BLUP)方法将TABLUP进一步细化为少数基因控制的性状,这样基因型关系矩阵的构建仅仅使用了与性状关联的标记。
如果要在亲缘关系矩阵中考虑群体结构带来的影响,可根据个体遗传关系的相似性将其分组,然后将压缩后的组别当做协变量,替换掉原来的个体,而组内个体的亲缘关系都是一样的。因此在构建基因组关系矩阵时,可用组别的遗传效应值来代替个体的值,用个体对应的组来进行预测,这就是cBLUP(Compressed BLUP)。
以上思路都提到了将已验证和新发现的位点整合到模型中,这些位点从何而来?最常见来源自然是全基因组关联分析(Genome Wide Association Study, GWAS)。GS和GWAS有着天然的联系,将GWAS的显着关联位点考虑进GS中,直接的好处是能维持多世代的预测能力,间接的好处是能增加已验证突变的数量。
下图比较了GWAS辅助基因组预测的各类方法比较。a表示分子标记辅助选择方法(MAS),只利用了少数几个主效位点;b表示经典GS方法,利用了全部标记,且标记效应相同;c对标记按权重分配;d将显着关联标记视为固定效应;e将显着关联标记视为另一个随机效应(有其自身的kernel derived);f将染色体划分为片段,每个片段构建的G矩阵分配为不同的随机效应。
GWAS辅助基因组预测的结果会比较复杂,单纯地考虑将关联信号纳入模型不一定都能提高准确性,具体表现应该和性状的遗传构建有关。
GS对遗传效应的估计有两种不同的策略。一是关注估计育种值,将加性效应从父母传递给子代。而非加性效应(如显性和上位性效应)与特定基因型相关,不能直接遗传。当估计方差组分时,非加性效应通常和随机的环境效应一起被当成噪音处理。另一种策略同时关注加性和非加性效应,通常用于杂种优势的探索。杂交优势一般认为是显性和上位性效应的结果,因此,如果非加性效应很明显,而你恰好将它们忽略了,遗传估计将会产生偏差。
杂种优势利用是植物育种,尤其是水稻、玉米等主粮作物的重要研究课题。将非加性遗传效应考虑进GS模型进行杂交种预测,也是当前基因组预测在作物育种中研究的热点之一。
当然,杂种优势效应的组成也是随性状而变化的,不同性状的基因组预测需要与鉴定杂优QTL位点结合起来。由于一般配合力GCA(加性效应的反映)和特殊配合力SCA(非加性效应的反映)可能来自不同遗传效应,所以预测杂交种F 1 应该分别考虑GCA和SCA。GCA模型可以基于GBLUP,重点在基因型亲缘关系矩阵构建。SCA模型有两种方法:一是将杂优SNP位点的Panel作为固定效应整合进GBLUP模型中;二是使用非线性模型,如贝叶斯和机器学习方法。据报道,对于加性模型的中低遗传力性状,机器学习和一般统计模型比较一致。但在非加性模型中,机器学习方法表现更优。
传统的GS模型往往只针对单个环境中的单个表型性状,忽略了实际情况中多性状间或多环境间的相互关系。一些研究通过对多个性状或多个环境同时进行建模,也能提高基因组预测的准确性。以多性状(Multi-trait,MT)模型为例,多变量模型(Multivariate model,MV)可用如下公式表示:
多性状选择一般用于性状间共有某种程度的遗传构建,即在遗传上是相关的。尤其适用于对低遗传力性状(伴随高遗传力性状相关)或者难以测量的性状。
农作物的环境条件不如动物容易控制,而且大部分性状都是数量性状,很容易受到环境影响。多环境(Multi-environment,ME)试验发挥了重要作用,基因型与环境互作(Genotype by E nvironment,G × E)效应也是当前基因组选择关注的焦点。
除了GBLUP,多变量模型也可基于贝叶斯框架的线性回归,或者基于非线性的机器学习方法。
我们知道,基因经过转录翻译以及一系列调控后才能最终体现在表型特征上,它只能在一定程度上反映表型事件发生的潜力。随着多组学技术的发展,整合多组学数据用于基因组预测也是目前GS研究的一个重要方向。
在植物育种中,除基因组外,转录组学和代谢组学是当前GS研究相对较多的两个组学。转录组将基因表达量与性状进行关联预测,代谢组则将调控表型的小分子含量与性状进行关联预测,对于某些特定的性状而言,可能会提高预测能力。最好的方法是将各个组学的数据共同整合进模型,但这样会大大增加模型的复杂度。
表型测定的准确性直接影响模型的构建。对于一些复杂性状,单凭肉眼观察记录显然已不可取,而且表型调查费时费力,成本很高。因此,高通量表型组也是GS发展的重要方向。表型的范畴非常之广,当个体性状不可简单测量时,我们也可采用多组学数据,如蛋白组、代谢组等数据来替代。
考虑到成本效益问题,多组学技术在动植物育种中仍处于研究阶段,但代表了未来的应用方向。
㈡ 什么是BLUP法
BLUP法即最优线性无偏估计法,是1973年由美国提出的一种评定种公牛育种值的方法。它的基本出发点是从女儿的表型值(产奶量)中将公牛育种值剖分出来;也可将牛群效因或来源效因剖分出来,这样所得的公牛育种值(公牛效因)消除了牛群差异的影响,其估测精确度高,误差最小,可用线性函数表示。
BLUP法将所有重要的系统环境影响和遗传分组的固定效应都考虑时,可以通过混合模型方程组得到最准确而又可靠的个体育种值的预测值。由于方程组的解与BLUP估值等价,所以在家畜实际育种中,混合模型方程组法已成为BLUP法的同义词。当一个混合模型中随机遗传效应为该个体本身的加性遗传值,即育种值时,该模型为个体动物模型,也称为加性遗传值模型。
BLUP法的动物模型公式为:
Y=Xb+Za+e式中,Y——某动物的表型观察值;X——与固定效应有关的个体数矩阵;b——固定效应的估计值(包括场、年、季、胎次等);Z——与加性遗传效应有关的个体数矩阵;a——需估计的某动物的育种值(加性遗传效应);e——随机误差。
BLUP动物模型有以下优点:
(1)亲属资料的最佳利用,将父母、本身、旁系及后代资料有机地结合。
(2)可校正选配造成的配偶误差。
(3)当使用多泌乳期记录时,可将由淘汰造成的偏差校正到最小。
(4)最重要的是可校正牛群、年份、季节、性别、胎次、地区等固定环境效应并进行育种值最佳无偏估计。
动物模型BLUP法计算过程比较复杂,必须用电脑才能完成繁琐的计算。所以,虽然它具有上述优点,但目前在我国仍未真正用于奶牛育种工作。
㈢ 恐龙的重量是怎样测出来的
怎样估算恐龙身体重量? 由美国古脊椎动物学家、恐龙专家科尔伯特改进的用复原的模型测量体重的方法,是目前世界上公认的行之有效的方法,原理非常简单,即体重等于体积乘以比重,恐龙的体积是利用恐龙的模型求出来,首先依据恐龙的骨架做一个缩小的模型,再把模型放入一个箱子里,把箱子用沙子添满,然后量出箱子和沙子的体积,二者之差就是恐龙模型的体积。把恐龙模型的体积的数字乘以原大与复原模型的比例的三次方,就得出了恐龙生前的体积。用恐龙的体积乘以现代与恐龙亲缘关系较近的爬行动物的比重,最后就得出了恐龙的大致体重。
日前,英国曼彻斯特大学的生物学家开发了一种新技术,能借助激光扫描更精确地测量恐龙的体重和大小,并发现它们并未像之前预想的那样重。科研人员同时表示,这一技术可应用于所有恐龙体重的测量。相关研究论文发表在近日出版的《生物学快报》杂志上。
论文的主要作者比尔·塞勒斯博士说:“对于古生物学家而言最重要事情之一,就是需要了解已经变为化石的动物有多重。这项工作困难得出乎意料,因此我们测试了这种新途径。”科学家利用激光扫描了驯鹿、北极熊、长颈鹿和大象等14种大型哺乳动物的骨架,并计算出了包裹它们骨架主要部分的最少皮肤量。
他们发现,这些动物的实际重量比上述的计算量大概多出了21%。随后,他们将这一方法应用在了德国柏林自然博物馆庞大的腕龙科恐龙——长颈巨龙骨架上,通过激光扫描计算出这种恐龙的皮肤和骨架包裹量,再增加21%,从而计算出它的实际重量。此前对于长颈巨龙重量的估测十分多样,最高可达80吨,但研究小组此次的计算可将这一数字降低至23吨。虽然从现有状况较好的骨架来看,最高和最重的恐龙仍可能是长颈巨龙,但这种庞然大物却比之前预想的轻了许多……
㈣ 曹冲称象还有别的办法可以称到象的重量吗
可以找个游泳池,水高过大象,量下原始水位,将大象踢入池中,重新计算水位。
可以算出体积。
再想办法估出密度,重量即可得到。
拉开冰箱门
把大象塞冰箱里
关上冰箱门
然后称冰箱的重量
减去冰箱原来的重量即可(冰箱的自重可以咨询厂家获得)
把称拿来
把大象放在称上,称之
把称收起来
将大象从高楼上扔下,测量其落地的时间。
用牛顿第二运动定律,易得其质量m. (很明显这位兄弟学的是鸭梨世铎得的物理学…)
题目要求比曹冲先进的方法,你们都没有
突出“先进”二字。 我的办法是,用航天飞机把大象送到一个
小行星上用普通称称,利用小行星轨道用银河巨型计算机算出小行星质量,再用广义相对
论算出大象重量。
挖个足够大的坑,把大象赶进去,之后填土
最后剩下多少土方乘以大象的密度就可以了
让大象以某速度冲撞某仪器,测量其冲量,除以速度就是质量.
稍微改进一点,不用石头,还得搬来搬去的,让几个人跳上船去,再让他们自己报体重。
(嗯,当年一休哥就是这么称大象的,结果差点被宰了)
切一小块象肉求其密度
把大象放进浴缸中,漫出的水的重量就是其体积
当年阿基米德 就是这样算王冠重量的
把大象煮煮吃了,看能味饱多少个人,计算方式就是:
5两×男生人数+2两×女生人数=大象体重. (大象里边又不都是肉,还有屎啥的,象牙,
象骨,象毛去了才好算象肉的密度)
重新定义质量单位,
以一只大象的重量定为一吨,
所以所有的大象质量都是一吨了
恩
思考良久,觉得杠杆原理比较合适。
嗯,大家知道了吧,我用的是杆秤。
切了块称,一斤一块!
用一氢气球充气后使其恰好让大象悬浮,余下就慢慢算了
把大象赶到地秤(就是警察查汽车超载的那种)上,不就可以直接得到其体重吗?小曹那
时候没有这么先进的东东,所以只好用“巧妙”的笨方法了:)
来一头母象,诱惑它说
找个冰面放上木板看看用多大的力拉动,算出摩擦系数,再赶上大象再用一个力拉动可能
算出质量
带大象去滑雪
把大象无限微分,处处可导
让大象去pielove征友 一般要说身高体重...
用西游记里面随便找个法宝收了大象,然后称前后重量变化. 对了,说起这个我想起来
那个一叫名字就收人的葫芦是哪个神仙的来着?
不知道他走在路上怎么和人打招呼。。。
找一个承重N吨的桥
赶n只大象上去
桥塌
大象重量=N/n-1
嗯 桥载重越大 最后得出的数值越准
打电话或者发电子邮件问问曹冲,或者干脆google一把
严肃点,严肃点,我们这儿称象呢!!
说个比较正规的吧,找一辆卡车,托着大象,行驶一段距离,看用了多少油(质量
和用油的模型应该有吧,没有就建一个)。
在曹冲的船上绑上细的铁丝,将象赶上去,测量电线的电阻的变化,根据电阻和长度、截
面面积的关系,计算出长度的变化,然后做有限元分析,推算出重量,然后转换为质量
从大象出生起,每日记录大象的吸收与排泄,加上皮肤散发,呼吸带出的蒸气,这样就可
得到大象的精确质量。
估计完了之后就是一个动物生理学家。
你找个跷跷板,把大象放在一段
然后从一百层楼上跳下,看大象能弹多高
然后就行了
双规大象,看它招不招
哼哼,把大象用油烧成渣渣。收集排放的CO2和H2O,用油量以及O2量。
渣渣-用油量-O2重量+H2O质量+CO2质量=大象重量
骗大象说它太瘦了,他只有1克,他气得不行了。
就说:“很丰满的,体重是****kg”
用录音机录下来,然后找人做录音整理,就可以得出结论了。
㈤ 迷你世界如何制作3000血的生物
制作微缩模型,生物模型方块修改,替换生物模型。
制作微缩模型后保存,通过背包工具里面将生物模型方块找到对其进行编辑,然后点击+号添加微缩模型,选择好对应的身体部件进行替换,最后进行调整就好了。
在编辑模型人偶时,微缩模型的大小,方向旋转,位置都可以设置,微缩模型是无法直接替换生物模型,不能直接就去点替换,要去资源库里面操作,修改新建生物必须要加载对应的新生物插件。
㈥ 5 - 混合模型(MME)的多种变型
本文从最简单的单随机变量到多个随机变量的复杂模型。
最简单的基础模型(每个动物有一个记录):
y = Xb + Za + e
其中E(y) = Xb; E(a) = E(e) = 0
ZGZ'是遗传方差,Z连接个体G与记录
Var(y) = V = var(Za + e) = ZGZ' + R; cov(y, e) = ZG; cov(a, y ) = GZ';
再次写下,经过Henderson转为MME的一般式子
Mixed model equations(MME)
这个模型常常被称为动物模型(animal model):一般为单性状,每个动物最多一个记录,对每个动物直接估计育种值。但是需要注意的是,动物模型不是第一种混合模型。
根据上述的式子,求解时,需要求G或C的逆矩阵, 因计算量过大, 1960年以前,不可能能实现。
所以人们就先简化了MME
所以的公牛都没有亲缘关系
但是其I表示的不合理, 应有关系矩阵
加上公牛之间的关系矩阵A s
问题:计算3个牛场的牛体高的平均值
结果:
但我们知道这些奶牛的是来自两头公牛的后代:
这样OLS的前提假设(记录之间不相关)就不成立了。
因为:具来自同一个sir的奶牛会倾向有相似的表型,其均有公牛的一部分相关的基因。
所以需要在各记录之间加入方差-协方差
(co)variances是描述记录值之间的相关
variance => 所有的变异来源
covariance => 动物之间的共同差异(如有相同的父亲)
如有共同父亲,则相同父亲传递的遗传力基本相同
但是这里也就需要知道这些新的参数:
假设:
但是公牛的贡献在哪?将通过以下实例(颜色)进行展示:
生成公牛的(协)方差遗传矩阵G *
增强(总,来自遗传方差的遗漏部分)环境(协)方差Var(e * ) = R*
所以总(表型)(协)方差矩阵变为V(SI中称为P)
当OLS考虑(协)方差矩阵时,其变为了GLS
我们引入Z(10 x 2)矩阵,使其关联公牛(无亲缘关系)通过其女儿的记录
G* = ZVar(s)Z' = Z(I x 25)Z‘ = ZZ‘ x 25(前面我们已经假设了遗传方差为100)
前面我们对R和G进行假设:
再在SI中测试:
则结果:
当具有相同父亲或者母亲的协方差为25.
当具有相同父亲,与母亲的协方差为50.
Note: 以下R与G都是指的父亲模型
sir model 变为animal model算法:
(1) 方差-协方差矩阵不同;
(2) 非对角线元素在非近交群体和非克隆体时,最大为50
(3) 对角线元素在非近交群体,当所有遗传方差被解释时为100
是对sir model的升级,增加了母亲的遗传效应。但是直接加入母亲效应,模型当时没法计算,就加入了外祖父效应,间接反映母亲效应:
(1)直接加入目前效应m:
模型为:
但随着近30年的算法和计算机的发展,可以直接计算A及其逆矩阵
所以我们现在普遍使用动物模型,但有时也需要根据数据调整。
最基本的动物model:
1 增加“环境”效应(random), 如: 观察值之间具有协方差(猪的窝, 相同母亲(非遗传)), 重复观察值(奶牛的泌乳量), 这些都需要使用(co)variances
其中加入永久环境随机效应: y = Xt + Zg + Zp + e, 这样会使e = e initial -Zp
2 有时,会受到共同遗传因素的影响,如:直接母性作用(calving ease, 断奶前体重), 繁殖性能(fertility)
3 random regressions 与(协)方差结构相关的回归效应, eg:年龄, DIM, 通常用于分析轨迹的“纵向”数据的模型,使用的模拟轨迹的函数最常用的有LP, spline.
4 具有遗传分组的动物模型
系谱中有些个体买的亲本未知,通常把这些个体成分基础群体(base population animals)。动物模型中,亲缘关系矩阵是假设所有的个体从一个总体中抽样获得。但是基础群体的遗传方差都是不同的,需要对这些未知父母分组。目前也是一个应用研究热点。