問題1
数学やアルゴリズムの論文では余計な表現を省いた簡潔な記述が好まれます。例えば:
⻑さ $n$ の⾃然数の列に対して、隣接する数 $a,b$ をその差の絶対値 $|a-b|$ で置き換える作業を繰返し、最終的に1つの数を計算する。異なる計算順序の総数 $P(n)$ は、列を分割し統治することで、漸化式
$$P(1) = 1,\quad P(n) = \sum_{k=1}^{n-1}P(k)P(n-k)\ (n\geq2)$$と表現できる。
これでは⾏間を補わないと理解できないと思います。⼀⽅、⽣命科学の論⽂では、数式やアルゴリズムに不慣れな読者を意識して丁寧に説明するのは親切だし、論⽂を読む読者層を広げることになります。たとえば下記の説明⽂のように書き換えられます。丁寧な英⽂を⼼がけるために、この⽂章を英語にしましょう。
⾃然数の列 $x_1,x_2,\ldots,x_n$ が与えられたとき、隣接する2つの数 $a,b$ の差の絶対値 $a-b$ を取り、$a,b$ を置き換える作業を繰返し、最終的に1つの数を計算することを考えよう。どの2つの数を選択するか、その順番で最終結果は異なる場合がある。そこで選択した2つの数 $a,b$ を $(a,b)$ で置き換え、計算の順序を表現しよう。たとえば列 $1, 2, 3, 4$ から以下のような計算過程を表現できる。
$$((1, 2), (3, 4)) = (1, 1) = 0 \quad (1, ((2, 3), 4)) = (1, (1, 4))=(1, 3) =2$$では $x_1,x_2,\ldots,x_n$ から得られる異なる計算順序の総数 $P(n)$ はどのぐらいだろうか?まず $P(n)$ は⻑さ $n$ だけで決まり、その中⾝ $x_i$ には依存しないことに注意しよう。次に、$P(n)$ を計算するには⼊⼒列を2つに分割する考え⽅が有⽤である。いま $x_1,x_2,\ldots,x_n$ を⻑さ $k$ の前半と残りの後半へ分割したとき、前半と後半の部分列の計算順序の総数は、$P(k)$ と $P(n-k)$ であるから、この分割を満たす計算順序の総数は $P(k)P(n-k)$ となる。したがって $k=1,\ldots,n-1$ について $P(k)P(n-k)$ の和を計算すれば $P(n)$ になりそうだが、$P(1)$ の扱い⽅を考える必要がある。$1$ 個の要素しかない列では計算順序の総数は $0$ としたいところであるが、$P(1)P(n-1) = P(n-1)$ としたい。そこで便宜上 $P(1)=1$ と約束する。まとめると $P(n)$ は以下の漸化式で計算できる。
$$P(1) = 1,\quad P(n) = \sum_{k=1}^{n-1}P(k)P(n-k)\ (n\geq2)$$解答
Given a sequence of Natural numbers $\mathcal{D} = \{x_1,x_2,\ldots,x_n\}$, the goal is to calculate the value $x^{\ast}$ by repeatedly replacing adjacent number pairs $a,b$ to one value $|a-b|$. In this problem, $x^{\ast}$ depends on how to chose the consecutive two numbers $a$ and $b$, so by denoting $(a,b)$ as the selected numbers, we express the calculation process uniquely. For example, in the case of $\mathcal{D} = \{1,2,3,4\}$ we can express following calculation processes
$$\left(\left(1,2\right), \left(3,4\right)\right) = \left(1,1\right) = 0 \quad \left(1,\left(\left(2,3\right)\right), 4\right) = \left(1,\left(1,4\right)\right) = \left(1,3\right) = 2$$We now discuss $P(n)$, denoting the total number of calculation processes. Noting that $P(n)$ depends only the sequence length $n$, we take an approach to calculate $P(n)$ by using a recurrence formula. If we divide the sequence into $\{x_1,x_2,\ldots,x_k\}$ and $\{x_{k+1},\ldots,x_n\}$, the total number of calculation processes under this division is given by $P(k)P(n-k)$. Therefore, $P(n)$ can be obtained by summing it over $k$. In the case of $n=1$, we define $P(1)=1$ since expression $P(1)(n-1) = P(n-1)$ holds. To summarize, $P(n)$ is given by
問題2
3年間の研究が実って以下のような研究成果が得られました。
(研究成果の要約)ゲノムのタンデムリピートは⻑くなるほど検出が難しく、どのような機能を持つか解明が待たれる。モデル⽣物 A のゲノムをロングリード・シーケンシングにより解読したところ、従来のショートリード・シーケンシングでは検出できなかったタンデムリピート X がゲノムの約 5%を占めることが分かった。X を含む転写物が神経細胞と⽣殖細胞に統計的に有意に発現しており、RNA ⼲渉でノックダウンしたところ雄の⽣殖能⼒が有意に低下した。タンデムリピート配列が機能することを⽰す注⽬すべき結果である。さらに、近縁種のゲノムと⽐較した結果、X はモデル⽣物 A の近縁種のゲノムでは殆ど存在せず、急速に進化し新しい機能を獲得したことを⽰唆している。
多くの⼈達にその成果を知ってほしいので、読者層の広い雑誌 SNC に投稿することにしました。雑誌 SNC では専属の編集者がいて、研究成果がどの程度広い読者層に関⼼を持たれるかを評価します。⾼評価であれば専⾨的な研究者に査読を依頼します。編集者に価値を理解してもらうため、通常はかなり苦労します。研究成果をアピールする以下の英⽂で、⻩⾊いマーカー部分を埋めてください。
Dear Editor of Scientific Nature of the Cell,
We are pleased to submit a manuscript entitled "要約の適切な題名を考えてください" for consideration for publication in Scientific Nature of the Cell.
要約を魅力的に伝えるパラグラフ
We believe that our findings should interest a broad readership of Scientific Nature of the Cell.
Sincerely yours,
"あなたの名前"
Department of Bioinformatics and Systems BiologyFaculty of Science, The University of Tokyo
解答
Dear Editor of Scientific Nature of the Cell,
We are pleased to submit a manuscript entitled "Long-read sequencing reveals unexplored tandem repeats" for consideration for publication in Scientific Nature of the Cell.
Repetitive genome regions have been difficult to detect and remain unexplained, mainly because of the comparative small size of the fragments used in assembly. To address this issue, we used long-read sequencers for "A" and found that tandem repeat "X" accounts for 5% of the whole genome, which has not been detected by conventional short-read sequencing. "X"-related transcript is significantly expressed in nerve cell and germ cell, and male fertility is declined when it knocked down by RNA interference. This shows that detected tandem repeat actually works. Surprisingly, X was hardly detected in related species of "A", and this suggests that "A" evolved rapidly and acquire functions recently.
We believe that our findings should interest a broad readership of Scientific Nature of the Cell.
Sincerely yours,
Shuto Iwasaki
Department of Bioinformatics and Systems BiologyFaculty of Science, The University of Tokyo
問題3
論⽂は査読者に回わしてもらえたものの、以下のような厳しいコメントが返ってきました。
Reviewer 1: My major concern with this manuscript is the avoidance of showing actual data, and that trait is very consistent throughout the manuscript. The most prominent example is the repeats assembled by their software program. The authors only claim that their software works, but they do not show any evidence for that claim.
そこで以下のような⽇本語の返答を考えてみました。査読者の懐に⼊れるような英⽂を 考えてみてください。
まず、とても貴重なコメントを頂きました Reviewer 1 に感謝いたします。コメントに従いまして本⽂を修正いたしました。リピート領域を解読することはとても難しい問題ですので、注意深くソフトウエアを設計しました。まず、正解領域が分かっているデータを現実のエラーパターンを考慮して⽣成し、そのデータを使って私達のソフトウエアの性能を評価しました。その結果、新しく追加した表1に⽰しますように、既存のソフトウエア⽐べて精度を10%以上改善できることが分かりました。⽣成データに加えて、現実のデータでもリピート領域を正しい⻑さでアセンブリしていることを、サザンブロットで確認しました。
解答
Thank you very much for your time and valuable feedback on our manuscript. Following the reviewer's suggestion, we confirm the correctness of our software and add the evidence. Validity check was conducted by the following steps:
- We generate ground truth according to a real observation.
- We compare the performance of various softwares in that data, and as shown in the Table 1, which is newly inserted, our software recorded more than 10% higher accuracy than the previous softwares.
- Our software also predicted the repeat regions for raw sequences, and its accuracy was confirmed by Southern blotting.
添削コメント:上手く書けています。一つ注意が必要なのは "software" は単数形です。複数形にしたい場合には "software programs" にしましょう。