programing

인간 게놈을 저장하려면 얼마나 많은 저장 공간이 필요합니까?

nasanasas 2020. 10. 27. 08:19
반응형

인간 게놈을 저장하려면 얼마나 많은 저장 공간이 필요합니까?


단일 인간 게놈을 저장하는 데 필요한 바이트 (MB, GB, TB 등) 단위의 스토리지 양을 찾고 있습니다. 나는 Wikipedia에서 DNA, 염색체, 염기쌍, 유전자에 대한 몇 가지 기사를 읽었으며 대략적인 추측이 있었지만 공개하기 전에 다른 사람들이이 문제에 어떻게 접근하는지보고 싶습니다.

대안적인 질문은 인간 DNA에 얼마나 많은 원자가 있는지가 될 것이지만,이 사이트에서는 주제가 아닙니다.

나는 이것이 근사치라는 것을 이해하므로 모든 인간의 DNA를 저장할 수있는 최소한의 값을 찾고 있습니다.


그러한 것들을 신뢰한다면, 다음은 Wikipedia가 주장하는 내용입니다 ( http://en.wikipedia.org/wiki/Human_genome#Information_content에서 ) :

반수체 인간 게놈의 29 억 염기쌍은 모든 염기쌍이 2 비트로 코딩 될 수 있기 때문에 최대 약 725 메가 바이트의 데이터에 해당합니다. 개별 게놈은 서로 1 % 미만 차이가 나기 때문에 약 4 메가 ​​바이트로 무손실 압축 할 수 있습니다.


모든 DNA를 하나의 흐름에 저장하는 것이 아니라 대부분 염색체에 의해 저장됩니다.

큰 염색체는 약 300MB, 작은 염색체는 약 50MB를 차지합니다.


편집하다:

기본 쌍당 2 비트로 저장되지 않는 첫 번째 이유는 데이터 작업에 장애물이 발생하기 때문이라고 생각합니다. 대부분의 사람들은 그것을 변환하는 방법을 모릅니다. 그리고 전환 프로그램이 주어 지더라도 대기업이나 연구소의 많은 사람들이 프로그램 설치 방법을 묻거나 알 필요가 없습니다.

1GB 스토리지는 비용이 들지 않으며 3GB를 다운로드하는데도 100Mbitsps로 4 분 밖에 걸리지 않으며 대부분의 회사는 더 빠른 속도를 제공합니다.

또 다른 요점은 데이터가 당신이 말한 것만 큼 간단하지 않다는 것입니다.

예를 들어 Craig_Venter발명 한 시퀀싱 방법 은 큰 돌파구 였지만 단점 이 있습니다. 동일한 기본 쌍의 긴 체인을 분리 할 수 ​​없으므로 8 개의 A 또는 9 개의 A가 있는지 항상 100 % 명확하지는 않습니다. 나중에 처리해야 할 사항 ...

또 다른 예는 DNA 메틸화입니다. 이 정보를 2 비트 표현으로 저장할 수 없기 때문입니다.


기본적으로 각 기본 쌍은 2 비트를 사용합니다 (T, G, C 및 A에 대해 00, 01, 10, 11을 사용할 수 있음). 인간 게놈에는 약 29 억 개의 염기쌍이 있기 때문에 (2 * 29 억) 비트 ~ = 691 메가 바이트입니다.

나는 전문가는 아니지만 Wikipedia Human Genome 페이지에 다음과 같이 나와 있습니다.

원시 MB :

  • 남성 (XY) : 770MB
  • 여성 (XX) : 756MB

그들의 차이가 어디에서 왔는지 확실하지 않지만 당신이 그것을 알아낼 수 있다고 확신합니다.


예, 전체 인간 DNA에 필요한 최소 RAM은 약 770MB입니다. 그러나 2 비트 표현은 실용적입니다. 검색하거나 계산하기가 어렵습니다. 따라서 일부 수학자들은 염기의 염기 서열을 저장하는 더 효과적인 방법을 설계하고 ... 예를 들어 GARLI (www.bio.utexas.edu/faculty/antisense/garli/garli.html)와 같은 검색 및 비교 알고리즘에서이를 사용합니다. 이 응용 프로그램은 지금 내 PC에서 실행되므로 여러분에게 말할 수 있습니다 ... 실제로 약 1,563 MB 에 저장된 DNA가 있습니다.


인간 게놈에는 29 억 개의 염기쌍이 있습니다. 따라서 각 기본 쌍을 바이트로 표시하면 29 억 바이트 또는 2.9GB가 필요합니다. 각 기본 쌍에는 2 비트 만 필요하므로 기본 쌍을 저장하는보다 창의적인 방법을 생각 해낼 수 있습니다. 따라서 바이트 당 4 개의 기본 쌍을 저장하여 총 1GB 미만을 줄일 수 있습니다.


DNA를 구성하는 4 개의 뉴클레오티드 염기는 A, C, G, T이므로 DNA의 각 염기에 대해 2 비트를 차지합니다. 약 29 억 개의베이스가 있으므로 약 700 메가 바이트입니다. 이상한 점은 일반 데이터 CD를 채울 것입니다! 우연의 일치?!?


그냥 했어요. 원시 시퀀스는 ~ 700MB입니다. 고정 된 저장 시퀀스 또는 고정 된 시퀀스 저장 알고리즘을 사용하는 경우-변경 사항이 1 %라는 사실은 perchromosome-sequenceoffset-statedelta 저장으로 120MB까지 계산됩니다. 그게 스토리지입니다.


모든 답변은 nuDNA가 인간 게놈을 정의하는 유일한 DNA가 아니라는 사실을 배제하고 있습니다. mtDNA는 또한 유전되며 인간 게놈에 추가로 16,500 개의 염기쌍을 제공하여 남성의 경우 770MB, 여성의 경우 756MB라는 Wikipedia 추측에 더 부합합니다.

그렇다고 인간 게놈을 4GB USB 스틱에 쉽게 저장할 수 있다는 의미는 아닙니다. 비트는 그 자체로 정보를 나타내는 것이 아니라 정보를 나타내는 비트의 조합입니다. 따라서 nuDNA 및 mtDNA의 경우 비트는 특히 기능 측면에서 표현하는 데 많은 MB의 원시 데이터가 필요한 단백질과 효소를 나타 내기 위해 인코딩됩니다 (압축 된 것과 혼동하지 말 것).

생각할 거리 : 인간 게놈의 80 %는 "비 코딩"DNA라고합니다. 실제로 전체 인체와 뇌가 151 ~ 154MB의 원시 데이터로 표현 될 수 있다고 실제로 믿었습니까?


사용자 slayton, rauchen, Paul Amstrong을 제외한 대부분의 답변 은 압축 기술이없는 순수한 스토리지 일대일에 관한 것이라면 틀 렸습니다.

3Gb의 뉴클레오티드를 가진 인간 게놈은 ~ 750MB가 아닌 3Gb의 바이트에 해당합니다. NCBI에 따라 구축 된 "반수체"게놈은 현재 3436687kb 또는 3.436687Gb 크기입니다. 여기 에서 직접 확인 하십시오 .

반수체 = 염색체의 단일 사본. Diploid = 반수체의 두 가지 버전. 인간은 22 개의 고유 한 염색체 x 2 = 44를 가지고 있습니다. 23 번째 염색체 수컷은 X, Y이며 총 46 개를 만듭니다. 암컷 23 번 크롬. X, X이므로 총 46 개가됩니다.

남성의 경우 HDD의 데이터 저장에서 23 + 1 염색체이고 여성의 경우 23 염색체가 될 것입니다. 이는 답변에서 언급 된 작은 차이점을 설명합니다. X 크롬. 수컷에서 X chrom과 같습니다. 암컷에게서.

따라서 게놈 (23 + 1)을 메모리에로드하는 작업은 fasta-file에서 구성된 데이터베이스를 사용하여 BLAST를 통해 부분적으로 수행됩니다. 압축 된 버전이든 아니든 상관없이 뉴클레오티드는 거의 압축되지 않습니다. 초기에 사용 된 트릭 중 하나는 직렬 반복 (GACGACGAC을 더 짧은 코딩 (예 : "3GAC"; 9 바이트에서 4 바이트)로)을 대체하는 것이 었습니다. 그 이유는 하드 드라이브 공간 (7.200rpm 및 SCSI 커넥터가있는 500bm-2GB HDDD 플래터 영역)을 절약하기 위해서입니다. 시퀀스 검색의 경우 쿼리로도 수행되었습니다.

경우 "코딩 염기" 저장 문자 당 2 비트의 것 당신은 바이트 얻을 :

A = 00
C = 01
G = 10
T = 11

Only that way you fully profit from positions 1,2,3,4,5,6,7 and 8 for 1 byte of coding. For example the combination 00.01.10.11 corresponding with "ACTG". This alone is resonsible for the 4 times reduction in file-size as we see in other answers. Thus 3.4Gb will be downsized to 0.85917175 Gb... ~860MB including a then required conversion program (23kb-4mb).

But... in biology you want to be able to read something thus compression gzipped is more than enough. Unzipped you can still read it. If this byte filling was used it becomes harder to read the data. That's why fasta-files are plain-text files in reality.


One base -- T, C, A, G (in the base-4 number system: 0, 1, 2, 3) -- is encoded as two bits (not one), so one base pair is encoded by four bits.


There is only 2 types of base pairs, Cytosine can only bind to Guanine, and Adenine can only bind to thymine, So each base pair can be considered a single bit. This means that an entire strand of Human DNA ~3 billion "Bits" would be right around ~350 megabytes.

참고URL : https://stackoverflow.com/questions/8954571/how-much-storage-would-be-required-to-store-a-human-genome

반응형