zepoch's site

Created2023-03-07|杂聊

...

Created2023-02-20|技术

最近在学习scanpy，读scanpy文档的toturial部分的 Trajectory inference for hematopoiesis in mouse 部分的时候，出现了一个错误，在我的 jupyter notebook 运行的时候，出现了一个 warning 1WARNING: Package 'fa2' is not installed, falling back to layout 'fr'.To use the faster and better ForceAtlas2 layout, install package 'fa2' (`pip install fa2`). 这个warning会导致我之后绘制的图片与文档中的原图有区别，在执行命令sc.pl.draw_graph(adata, color='paul15_clusters', legend_loc='on data')的时候，可以看到，左边是源文档的图片，右边是我画出来的图片 ...

如何写好你的科学故事

Created2022-12-08|技术

摘要科学家要想成功，就必须写得好。遵循经典的前言、方法、结果和讨论 (IMRaD) 结构的论文写作存在实质性指导。在这里，作者填补了这个教学经典中的一个关键空白。作者提供有关编写优秀科学故事的指导。这种宝贵但往往难以实现的技能可以增加研究的影响力及其被接受的可能性。科学故事不仅仅是提供信息。这是一个有凝聚力的叙述，通过提出和解决问题来吸引读者，有开头、中间和结尾。为了创建这种叙事结构，作者敦促考虑在研究结束时开始，先写下他们的主要结论，为讨论提供基础，然后倒推：结果→方法→完善讨论→介绍→摘要→ 标题。在这篇简短而非正式的社论中，作者为广泛的受众提供指导，从高年级本科生（刚刚进行了他们的第一个研究项目）到高级科学家（他们可能会从重新思考他们的写作方法中受益）。为此，作者提供了具体的说明、示例和关于如何“倒着写”的文献指南，将科学叙事与 IMRaD 结构联系起来。不发表就出局写作是科学研究的一项基本技能。许多资源提供了关于撰写简洁、高效和令人信服的论文的指导（表 1），这些论文主要基于经典的介绍、方法、结果和讨论 (IMRaD)...

表观遗传学期末

Created2022-11-24|表观遗传学

1.表观遗传学概念，分子机制，及表观遗传经典现象概念：是指在DNA序列不发生改变的情况下，基因表达发生可遗传变异的现象分子机制： DNA甲基化修饰。是表观遗传的主要形式，DNA甲基化是指在DNA甲基转移酶的作用下，在基因组CpG岛的胞嘧啶五号碳原子上结合一个甲基基团。组蛋白修饰：主要组蛋白甲基化和去甲基化、乙酰化与去乙酰化、磷酸化和泛素化。修饰的组蛋白改变了与DNA双链的亲和性，从而改变染色质的疏松或凝集状态，或通过影响转录因子与启动子的亲和性来发挥对基因表达的调控作用。组蛋白变体：染色质由许多核小体组成，核小体是由组蛋白H2A，H2B，H3和H4各两个分子构成的八聚体，H1帮助DNA缠绕在核小体上形成高级结构。其中H2A，H3容易产生变体，H2B和H4不容易产生变体。组蛋白H3变体由H3.3、CENP-A、H3.3t，组蛋白H2A变体由H2A.Z、H2A.X、marco H2A、H2A.Bob，组蛋白H2B变体由H2BWT，暂未发现更多的其他变体，组蛋白H4最保守，没有变体。非编码...

杂聊6

Created2022-11-05|生活

...

杂聊5

Created2022-10-22|生活

...

返校3周，国科大加重了我的精神内耗

Created2022-09-16|生活

...

机器学习-支持向量机

Created2022-08-19|技术

支持向量机总体是由一个合页损失函数和一个核函数组成合页损失函数由于函数形状像一个合页，故命合页损失函数，下图为合页损失函数的图形。二分类问题求解分为三个步骤，第一步为定义函数 \(g(x)= \begin{cases} f(x)>0, & \text {output= +1} \\ f(x)<0, & \text{output= -1} \end{cases}\) 上述定义的函数，其输出由f(x)决定，当f(x)大于零时，输出为+1，当f(x)小于零时，输出为-1。第二步是通过损失函数判断函数的好坏。我们定义损失函数如下： \[L(f)=\sum_nI(g(x^n)\not \neq...

机器学习-逻辑回归

Created2022-08-18|技术

接着上篇博客继续，我们发现，概率生成模型最终推导函数，其本质还是寻找参数w和b，所以可以设置一个函数，直接来寻找最优的w和b \[ f_{w,b}(x)=P_{w,b}(C_1|x)=\sigma(z)\\ \sigma(z)=\frac{1}{1+exp(-z)}\\ z = w \cdot x+b \] 相较于线性回归，逻辑回归做的事情便是将 wx+b 放入 sigmoid 函数中，使其输出一直处于0~1之间。在我们确定了函数之后，便是应该再定义一个损失函数。假设有一组训练数据，其数据大小为 N，而且分别有自己的类别标签C。给定一组 w 和 b，就可以计算这组w，b下产生上图N个训练数据的概率，\(f_{w,b}(x^3)\)表示 \(x^3\) 属于C1的概率，但是其真实分类为C2，所以要用 \(1-f_{w,b}(x^3)\)。 \(L(w,b)L(w,b)\)取得的数值最大的时候，即取得最好的w和b，\(w^∗,b^∗ = argmax_{w,b}L(w,b)\) 在此我们可以做一个变换，对...

机器学习-概率生成模型

Created2022-08-17|技术

理论基础概率生成模型，是概率统计和机器学习中的一类重要模型，指一系列用于随机生成可观测数据的模型。假设有两类数据，每一类都有若干个样本；概率生成模型认为每一类数据都服从某一种分布，如高斯分布；从两类训练数据中得到两个高斯分布的密度函数，具体的是获得均值和方差两个参数；测试样本输入到其中一个高斯分布函数，得到的概率值若大于0.5，则说明该样本属于该类，否则属于另一类。生成模型可以和贝叶斯概率公式进行结合，用于分类问题。原始贝叶斯概率公式为： \[ P(A|B)=\frac{P(B|A)P(A)}{P(B)} \tag{1} \] 对于一个\(2\times2\)的分类则有下图所述的贝叶斯分类在上图中，训练数据中有两个类别；每个类别下有5个样本，我们想要知道新的测试样本\(x\)属于\(C1\)的可能性。根据贝叶斯概率公式可以得到上图片所示的概率公式。其中，\(P(C1)\)和\(P(C2)\)表示在训练数据中，随机采样得到\(C1\)或者C2的概率，即两个类别在训练数据中所占的比重。分母项\(P(x)\)表示生成数据x的概率，此处可以由生成模型计算得到； \[ P(x)...