টিউটোরিয়াল: বায়োইনফরমেটিক্স প্রজেক্টে কিভাবে ভাবতে হয়

একটি বায়োইনফরমেটিক্স প্রজেক্টে কত রকমের ভিন্ন ভিন্ন বিশ্লেষণ প্রক্রিয়ার মাধ্যমে যেতে হয়, নানা রকমের প্রশ্ন কিভাবে জিলাপীর প্যাঁচের মতো এসে জট পাকিয়ে ফেলতে পারে, কিভাবে চিন্তা করতে হয়।
The new world of DNA | The Economist
পাঠসংখ্যা: 👁️ 953

বায়োইনফরমেটিক্স নিয়ে অনেকেই আগ্রহী, অনেকেই বিভিন্ন ধরনের প্রজেক্ট করে পেপার পাবলিশ করতে চায়। বায়োইনফরমেটিক্স নিয়ে কাজ করার জন্য নানা ধরনের টিউটোরিয়ালও রয়েছে ইন্টারনেটে। অনেকক্ষেত্রেই এই টিউটোরিয়ালগুলো টেকনিক্যাল হয়ে যায়। টেকনিক শেখা গুরুত্বপূর্ণ। কিন্তু একই সাথে গুরুত্বপূর্ণ গবেষণার বিভিন্ন দিক নিয়ে ভাবতে শেখা, প্রশ্ন করতে শেখা। বায়োইনফরমেটিক্সের জটিল সফটওয়্যার ও প্রোগ্রাম শিখতে গিয়ে, ডেটা বিশ্লেষণ করতে গিয়ে অনেক সময় সে মৌলিক প্রশ্নগুলো নিয়ে ভাবার কাজটা হারিয়ে যায়।

যে কোন বায়োইনফরমেটিক্স প্রজেক্টে অনেক ধরণের কাজ থাকে। অনেক সময় একটা ছোট প্রশ্নের উত্তর খুঁজে পেতে হিমশিম খেতে হয়। আবার সে প্রশ্নের উত্তর পাওয়ার পর ভিন্ন প্রশ্ন এসে আমাদের অপ্রস্তুত করে দেয়। যেন রহস্যের শেষ নেই। বাস্তবে জিলাপীর প্যাঁচের মতো প্যাঁচালো প্রশ্নের উত্তর খোঁজা, ও নিত্যনতুন বিশ্লেষণ করা জটিল ও সময়সাধ্য কাজ। একটি সত্যিকার প্রজেক্টের খানিকটা স্বাদ পাওয়া এই টিউটেরিয়ালের অন্যতম লক্ষ্য।

এই টিউটোরিয়ালে ডিএনএ সিকোয়েন্সের ডেটা পাওয়ার পর সেগুলো জোড়া লাগানো (এসেম্বলি), জিন সনাক্তকরণ, প্রোটিন নির্ণয়, প্রোটিনটি কোষের কোথায় কাজ করে, জিনোম ব্রাউজার নিয়ে নাড়াচাড়া করা, ডিএনএ তে ট্রান্সক্রিপশন ফ্যাক্টর বসার স্থান বের করা, ফাইলোজেনেটিক ট্রি ইত্যাদি বিষয়ের সাথে আপনাকে পরিচিত করিয়ে দেয়া হবে।

আমি যখন পিএইচডি শুরু করি, তখন প্রফেসর ড. জুডালসনের একটি কোর্স করতে হয়েছিলো, Advances in Bioinformatics and Genomics। সেখানকার একটি এসাইনমেন্টের ভিত্তিতে আমি এই টিউটোরিয়ালটি অনুবাদ করেছি বাংলাদেশের মাইক্রোবায়োলজি, বায়োকেমিস্ট্রি, জেনেটিক ইঞ্জিনিয়ারিং, বোটনি, জুওলজি ইত্যাদি বিভাগসমূহের শিক্ষার্থীদের জন্য। আশা করি, বায়োইনফরমেটিক্সে আগ্রহীদের এই টিউটোরিয়ালটি কাজে আসবে।

সিকোয়েন্স এসেম্বলির মূল ধারণা।

ধাপ ১: সিকোয়েন্স এসেম্বলি

  •   এই প্রজেক্টে আপনাকে একটি অজানা জিনোমের প্লাজমিড লাইব্রেরি থেকে করা ডিএনএ-সিকোয়েন্সের রিড (read) দেয়া হবে। 
  •   যে ফাইলটিতে এ সিকোয়েন্সগুলো আছে তার নাম হলো plasmid_library_sequences.txt। এটি fasta ফরম্যাটের ফাইল।
  •   ফাইলটি ডাউনলোড করুন এই লিঙ্ক থেকে: https://goo.gl/G1QKA7
  •   এ সিকোয়েন্সগুলোকে থেকে ভেক্টরের অংশগুলো বাদ দেয়া হয়েছে। এছাড়া খারাপ সিকোয়েন্সগুলোও বাদ দেয়া হয়েছে। তবুও কিছু কিছু সিকোয়েন্সে ’N’ রয়ে গেছে সিকোয়েন্সিং প্রক্রিয়ার অস্পষ্ট বেস কলের (base call) জন্য।
  •   ক্লোনগুলোর নাম খেয়াল করে দেখুন: অধিকাংশেরই প্লাজমিডের ডান ও বাম অংশের রিড রয়েছে (F ও R)।

আপনি plasmid_library_sequences.txt ফাইলে থাকা রিডগুলো জোড়া লাগাতে CAP সিকোয়েন্স এসেম্বলি প্রোগ্রাম ব্যবহার করবেন। একটি সত্যিকারের জিনোম প্রজেক্টে একজন অভিজ্ঞ গবেষক যে ধরণের প্রোগ্রাম ব্যবহার করেন, CAP তেমন কিছু নয়। তবে আমাদের মেন্টরিং কর্মসূচীর প্রাথমিক পর্যায়ের জীববিজ্ঞান-পড়ুয়া একজন সাধারণ শিক্ষার্থীর জন্য এটি সহজ একটি প্রোগ্রাম। এ ফাইলে থাকা সিকোয়েন্সগুলো স্যঙারের প্রক্রিয়ায় সিকোয়েন্সিং করা হয়েছিলো।


অন্তর্জালে বেশ কয়েকটি ওয়েবসাইটে CAP পাওয়া যাবে। এদের মধ্যে কয়েকটি নিচে দেয়া হলো। আমাদের এই কর্মসূচীতে একই প্রোগ্রামের জন্য প্রায়ই একাধিক ওয়েবসাইট দেয়া হবে। আপনাকে যে কোন একটি ব্যবহার করতে হবে। বিকল্প ওয়েবসাইট দেয়ার কারণ হলো যদি কোন সার্ভার কাজ করা বন্ধ করে দেয়।

http://doua.prabi.fr/software/cap3
http://bio-webout.ifom.eu/cap/

এ সাইটগুলো অনুরূপভাবে কাজ করে। তবে এদের ফলাফল ভিন্ন হতে পারে।

প্রদত্ত ফাইল থেকে সিকোয়েন্সগুলো সার্চ-উইন্ডোতে কপি করুন। কিংবা আপলোডও করতে পারেন। তারপর সিকোয়েন্সগুলো assemble করুন। প্রাপ্ত ফলাফল বিশ্লেষণ করতে নিচের প্রশ্নগুলো মাথায় রাখুন। এই প্রশ্নগুলো দিয়েই রিপোর্ট তৈরি করতে হবে।

 

ভাবনার খোরাক

১(ক). আপনি কি এসেম্বলি থেকে একটি দীর্ঘ কন্টিগ (contig) পেয়েছেন? যদি একটি কন্টিগ না পেয়ে থাকেন, তাহলে কি কি বিষয় দিয়ে তা ব্যাখ্যা করা যায়?

১(খ). এই কন্টিগগুলো জোড়া লাগানোর কোন উপায় রয়েছে? অথবা কোন কন্টিগের পরে কোন কন্টিগ বসবে তার অনুক্রম বের করার জন্য কোন পদ্ধতি কি খুঁজে পাচ্ছেন? (ইঙ্গিত: সিকোয়েন্সের F বা R থেকে কোন সূত্র পাওয়া যায়?)

১(গ). যখন সিকোয়েন্সের মাঝে  ’N’ (অসনাক্তকৃত বেস) আসে, বা একাধিক সিকোয়েন্সের মধ্যে যখন অমিল থাকে, তখন CAP প্রোগ্রামটি কি করে?

প্রশ্নগুলো নিয়ে ভাবুন, বারবার। খাতা-কলমের মাধ্যমে ভাবুন। ভাবনা লিখে রাখুন।



যদি মনে হয় অনেক কিছুই বুঝছি না, জানি না ইত্যাদি, তাহলে আপনাকে প্রথমেই যা করতে হবে তা হলো Google Search। এছাড়া Theory of partial ignorance প্রক্রিয়া অনুসরণ করতে বলবো। Theory of partial ignorance সম্পর্কে জানা যাবে এখানে: http://wp.me/p91Qzw-b

সমমনা কয়েকজন একসাথে গ্রুপে কাজ করা শেখার জন্য খুব সহায়ক হতে পারে। পাশাপাশি এ বিষয়ে কোন জিজ্ঞাসা থাকলে ফেসবুকে বায়ো-বায়ো-১ বায়োইনফরমেটিক্স ডিসকাশন ফোরামের সাহায্য নিতে পারেন: https://www.fb.com/groups/biobio1/

gene | Definition, Structure, Expression, & Facts | Britannica
জিনের বিভিন্ন অংশ

ধাপ ২: জিন সনাক্তকরণের তিনটি প্রক্রিয়া

  • প্রথম ধাপের উপাত্ত দিয়েই এ ধাপে কাজ করতে হবে।
  • CAP প্রোগ্রাম থেকে পাওয়া তিনটি বড় কন্টিগ থেকে সাম্ভাব্য জিন সনাক্ত করতে হবে। কোন কন্টিগে জিন থাকতে পারে, আবার নাও থাকতে পারে!
  • এখানে তিনটি পদ্ধতির কথা বলা হলো যা আপনি অনুসরণ করতে পারেন। এমন নয় যে আপনাকে সকল কন্টিগই বিশ্লেষণ করতে হবে। তবে বিশ্লেষণ যথেষ্ট পরিমানে হওয়া উচিত যাতে কিছু ‘সত্যিকারের জিন’ আপনি দেখতে পান।
  • প্রয়োজনে আপনি ডিএনএ সিকোয়েন্সগুলো প্রোটিনে অনুবাদ (ট্রান্সলেট) করে দেখতে পারেন। এজন্য আপনি নিম্নোক্ত প্রোগ্রাম ব্যবহার করতে পারেন:
    http://us.expasy.org/tools/dna.html
    http://bio.lundberg.gu.se/edu/translat.html 

প্রথমত, আপনি CAP3 থেকে পাওয়া কন্টিগের মাঝে অবস্থিত সাম্ভাব্য প্রোটিন সনাক্তকরণের জন্য GenBank ডেটাবেজে ব্লাস্ট (BLAST) করে দেখতে পারেন (http://www.ncbi.nlm.nih.gov/blast)। ইঙ্গিত – BLAST এর কোন সংস্করণটি ব্যবহার করা উচিত? সঠিক সংস্করণ ব্যবহার করলে দীর্ঘতর কন্টিগ থেকে অর্থবহ ফলাফল পাওয়া যাবে।

দ্বিতীয়ত, কন্টিগ সিকোয়েন্সের মাঝে মুক্ত পাঠ-কাঠামো (Open Reading Frame) খুঁজে দেখুন। এজন্য https://www.ncbi.nlm.nih.gov/orffinder/ প্রোগ্রামটি ব্যবহার করতে পারেন। প্রোটিন সনাক্তকরণের জন্য এটা কিছুটা স্থুল প্রক্রিয়া। তবে আমাদের সিকোয়েন্সে কোন ইন্ট্রন (intron) নেই — তাই এ ধাপের ফলাফল বিশ্লেষণ বেশ সরল হবে।

তৃতীয়ত, প্রচ্ছন্ন মার্কভ মডেল (Hidden Markov Model) ভিত্তিক প্রোগ্রাম ব্যবহার করে দেখুন (যেমন FGENESB  ও GENEMARK)।

FGENESB-এর জন্য http://linux1.softberry.com  ওয়েব সাইটটিতে বাম কলামে যান। সেখানে ‘operon and gene finding in bacteria’ লিঙ্ক থেকে FGENESB সনাক্ত করুন। বিভিন্ন ট্রেনিং সেটের বিপরীতে এই প্রোগ্রামটি চালিয়ে দেখুন ফলাফলে কোন পার্থক্য তৈরি হয় কি না।

GENEMARK-এর জন্য http://exon.gatech.edu/GeneMark/  লিঙ্ক-এ যান। ব্যক্টেরিয়ার জন্য নির্দিষ্ট প্রোগ্রাম GeneMarkS ব্যবহার করুন।

খেয়াল রাখুন যে, কিছু কিছু প্রোগ্রামে আপনাকে একটি জীব নির্দিষ্ট করতে হবে । এর মাধ্যমে প্রোগ্রামটি ঠিক করে কোন কোন প্যারামিটার ব্যবহার করতে হবে। এ প্যারামিটারগুলো প্রতিটি জীবের জন্য পূর্বে ঠিক করে দেয়া ট্রেনিং সেটের ভিত্তিতে বের করা হয়। যেহেতু আপনি জানেন না মূল ডেটাসেটে কোন জীবের সিকোয়েন্স ব্যবহার করছেন, তাই ভিন্ন কয়েকটি জীব ব্যবহার করুন।

আরো খেয়াল রাখুন যে আপনার বিভিন্ন প্রোগ্রামের ভিন্ন ভিন্ন সেটিংস কিংবা ফাইল ফরম্যাট পরিবর্তন করে দেখতে হতে পারে।
 

ভাবনার খোরাক

২ক. কোনটিকে (এক বা একাধিক) আপনার প্রকৃত জিন মনে হয়? কেন?
২খ. এ জিনগুলি কি ধরণের প্রোটিন তৈরি করে?
২গ. FGENESB  প্রোগ্রামটি বিভিন্ন প্যারামিটার অনুযায়ি ভিন্ন ভিন্ন ফলাফল দেখায়। কেন?
২ঘ. বিভিন্ন প্রোগ্রামের ফলাফলের পারস্পারিক তুলনা করে কি বোঝা যায়? কিভাবে তুলনা করবেন?

A five-residue motif for the design of domain swapping in proteins | Nature  Communications
সিকোয়েন্স থেকে প্রোটিন ডোমেইন

ধাপ ৩: প্রোটিন ডোমেইন সনাক্তকরণ

  • এ ধাপের কাজের জন্য আমরা নতুন ডেটাসেট ব্যবহার করবো।
  • এই লিঙ্ক থেকে Mystery Sequence.txt ফাইলটি ডাউনলোড করে নিন। ফাইলটি ডাউনলোড না হলে লিঙ্কের উপর রাইট ক্লিক করে Save link as (ইন্টারনেট ব্রাউজার ভেদে ভিন্ন কথা থাকতে পারে) বেছে নিন।
  • এই ফাইলে EST (Expressed sequencd tag) থেকে তৈরি করা একটি কন্টিগ রয়েছে।

প্রথমত, ডিএনএ সিকোয়েন্সটিকে প্রোটিন সিকোয়েন্সে ট্রান্সলেট করুন। গত সপ্তাহের ইমেইলে (ধাপ-২) উল্লেখিত প্রোগ্রাম ব্যবহার করে ডিএনএ থেকে অ্যামিনো এসিড সিকোয়েন্স অনুবাদ করতে পারবেন। খেয়াল করুন, সিকোয়েন্সে একাধিক reading frame (পাঠ কাঠামো) থাকতে পারে। তাছাড়া সিকোয়েন্সের কোডিং-অঞ্চল প্রথম বেস থেকে শুরু নাও হতে পারে। উল্লেখ্য, এটি কোন ‘অনির্দিষ্ট’ সিকোয়েন্স নয় — এখানে একটি মুক্ত পাঠ কাঠামো (ORF বা Open Reading Frame) অবশ্যই খুঁজে পাওয়া উচিত।

দ্বিতীয়ত, এই সিকোয়েন্সটি BLAST এর মাধ্যমে GenBank-এ খুঁজে দেখুন অনুরূপ সিকোয়েন্স পান কি না।

তৃতীয়ত, সিকোয়েন্সের মধ্যে থাকা বিভিন্ন প্রোটিন ডোমেইন নিম্নোক্ত ডেটাবেসের মাধ্যমে খুঁজে দেখুন:
NCBI Conserved Domain Database (CDD) [নোট: আপনি NCBI এর মাধ্যমে ব্লাস্ট করলে তা স্বয়ংস্ক্রিয়ভাবেই CDD খুঁজে দেখবে]
PROSITE
INTERPRO
PFAM
 

ভাবনার খোরাক

৩ক. বিভিন্ন ডেটাবেস খুঁজে এই সিকোয়েন্সে প্রাপ্ত ডোমেইন প্রোটিনটির মূল কাজ সম্পর্কে কি ইঙ্গিত দেয়? সেটা কি BLAST-এ প্রাপ্ত ফলাফলের সাথে সামঞ্জাস্যপূর্ণ?
৩খ. এই অনলাইন প্রোগ্রামগুলোর মধ্যে আপনার কোনটি ভালো লেগেছে? কেন?
৩গ. BLAST প্রোগ্রামের ফলাফল থেকেএই সিকোয়েন্সটি কোন প্রজাতি থেকে এসেছে তা আপনার বের করতে পারা উচিত। সে প্রজাতিটি কি? Mystery_Sequence.txt ফাইলের সিকোয়েন্সটি কি জিনের সম্পূর্ণ  কোডিং অংশটি ধারণ করে? এ প্রশ্নর উত্তর খোঁজার জন্য আপনার হয়তো BLAST প্রোগ্রামের প্রথমদিকের ফলাফলের GenBank রেকর্ড দেখা লাগতে পারে।

আমরা দেখেছি কিভাবে সিকোয়েন্স এসেম্বলি করে কন্টিগ তৈরি করতে হয়। কন্টিগ তৈরির পর জিন খুঁজে বের করার কাজ করেছি। এ সপ্তাহে আমাদের লক্ষ্য একটি রহস্যময় জিনের প্রোটিন কি কাজ করে তা বের করা। ধাপে ধাপে আমরা বায়োইনফরমেটিক্স গবেষণার বিভিন্ন বিশ্লেষণ-পদ্ধতি সম্পর্কে জানবো।

ধাপ ৪: প্রোটিন কোষের কোথায় কাজ করে

  •   এখন আমরা গত ধাপে কাজ করা প্রোটিনটি কোষের ঠিক কোন স্থানে কাজ করে (subcellular localization) তা অনুমান করবো।
  •   এজন্য নিচের প্রোগ্রামগুলো ব্যবহার করতে হবে।
  •   সুবিধার্থে ধরে নিতে হবে, প্রোটিনটি কোন প্রাণীকোষ থেকে এসেছে।

নিচের অনলাইন প্রোগ্রামগুলো ব্যবহার প্রোটিনের subcellular localiztion সম্পর্কে জানার চেষ্টা করুন।
PSORT
SCLpred
Multiloc2

কোষের কোন অঞ্চলে প্রোটিনটি সক্রিয় তা দেখার পর বিশ্লেষণ করে দেখুন প্রোটিনটির কোন আন্ত:কোষঝিল্লি ডোমেইন (transmembrane domains) রয়েছে কি না।
TMHMM
PRED-TMR2
HMMTOP
TMPRED

ভাবনার খোরাক

৪ক. PSORT, SCLpred, ও Multiloc2 প্রোগ্রামগুলোর বিশ্লেষণ অনুসারে প্রোটিনটি কোষের কোন অঞ্চলে সক্রিয়ভাবে কাজ করে? এই ফলাফলগুলো কি নির্ভরযোগ্য?
৪খ. আন্ত‍:কোষঝিল্লী ভবিষ্যদ্বাণীর প্রোগ্রামগুলো কি একই ফলাফল দিচ্ছে (দিলে কেন, না দিলে কেন নয়)?
৪গ. BLAST করে আপনি যে ফলাফল পেয়েছেন, তার সাথে এই বিশ্লেষণের ফলাফলগুলো কি মিলে যায়?

ধাপ ৫: বিভিন্ন জিনোম ব্রাউজারে তুলনা

এই ধাপে আমরা জিনোম প্রজেক্ট ওয়েবসাইট ঘাঁটবো।

প্রথমে, ধাপ-৩ থেকে সনাক্তকৃত প্রোটিনটি দিয়ে কাজ শুরু করতে হবে। http://www.yeastgenome.org ওয়েবসাইটটি ইস্ট অর্থাৎ পাউরুটি তৈরির ছত্রাকের জিনোম সম্পর্কিত বিভিন্ন তথ্য ও টুল ধারণ করে। এখানে Analyze>BLAST মেন্যু হতে ধাপ-৩ থেকে সনাক্তকৃত প্রোটিনটি S. Cerevisiae S228C ডেটাসেটের সাথে তুলনা করতে হবে।

খেয়াল রাখুন, এই ধাপের বিশ্লেষণটি ঠিকমতো করতে হলে আপনাকে সঠিক রকমের BLAST প্রোগ্রাম ও লক্ষ্য  ডেটাবেস সনাক্ত করতে হবে। আপনি ফলাফল পেয়ে গেলে ‘Retrieve sequence’ লিঙ্কটি ক্লিক করতে পারেন। তাহলে একটি নতুন ওয়েবপেজ চলে আসবে যেখানে এই ইস্ট জিনটির কাজের বর্ণনা দেয়া আছে। এ ওয়েবপেজটি সময় নিয়ে দেখতে থাকুন — এটা বেশ তথ্যসমৃদ্ধ।

BLAST থেকে আপনি অন্তত দুইটি ভুক্তি পাবেন। কোনটিই যে মুল সিকোয়েন্সের সাথে ভালো মিল তা নয়। কিন্তু আপনাকে ভেবে বের করতে হবে যে ধাপ-৩ এর বিশ্লেষণ থেকে পাওয়া কার্যক্রমের সাথে এই ভুক্তিগুলোর কোনটির কাজ মিলে যায়। পাশাপাশি, এই নতুন সনাক্তকৃত ইস্টের সিকোয়েন্সটি আপনি ডাউনলোড করে রেখে দিন, ধাপ-৭ এ এটি কাজে লাগবে।

দ্বিতীয়ত,  C. elegans পোকাটির জিনোম ওয়েবসাইট http://www.wormbase.org এ যান। সেখানে পুনরায় ধাপ-৩ থেকে পাওয়া প্রোটিন সিকোয়েন্সটি BLAST করুন (Tools মেনু থেকে)। তারপর ফলাফল হিসেবে পাওয়া সবচেয়ে অধিক মিল সিকোয়েন্সটি ডাউনলোড করে রাখুন, কারণ ধাপ-৭ এ আমাদের লাগবে।


ভাবনার খোরাক

৫ক. এই দুইটি জিনোম ডেটাবেজে খোঁজার পর কোন সিকোয়েন্স পেলেন?
৫খ. আপনার কি মনে হয় শুরু সিকোয়েন্সে BLAST করে যে নতুন সিকোয়েন্স পাওয়া গেল তারা অনুরূপ/সদৃশ? এদের মধ্যে কাজের দিক দিয়ে কোন মিল থাকতে পারে?
৫গ. এককোষী ছত্রাক ইস্ট ও বহুকোষী কীট C. elegans এর সাথে আপনার ধাপ-৩ থেকে পাওয়া সিকোয়েন্সের যে মিল পাওয়া গেল, তা কিভাবে ব্যখ্যা করবেন? কোনটি বেশি মিলে যায়, কোনটি কম মিলে যায়? আর C. elegans এ আপনার অন্তত ৭টি প্রোটিনের সাথে বেশ শক্তিশালি মিল পাওয়া উচিত, কিন্তু ইস্ট এর ক্ষেত্রে এতোগুলো মিল পাওয়া যায় না। এটা কিভাবে ব্যখ্যা করবেন?


Genome Browser Workshops: Various Locations | Genomics Institute
জিনোম ব্রাউজারের নমুনা

ধাপ ৬: মানব জিনোম ব্রাউজার নিয়ে নাড়াচাড়া

এখন পর্যন্ত আমরা সিকোয়েন্স রিড জোড়া লাগিয়ে কন্টিগ তৈরি করেছি। সে কন্টিগে জিন খুঁজেছি, জিন থেকে প্রোটিন খুঁজেছি। প্রোটিন আসলেই আছে কি না তা বোঝার জন্য বিভিন্ন ডোমেইন দেখেছি। প্রোটিনটি কোষের কোন স্থানে কাজ করে তা আন্দাজ করার চেষ্টা করেছি কম্পিউটেশনাল টুল ব্যবহার করে। বিভিন্ন দূরবর্তী জীব যেমন এককোষী ইস্ট ও বহুকোষী C. elegans কীটে এই জিনটি সংরক্ষিত কি না তা বের করার চেষ্টা করেছি। এখন সময় হলো এই জিনটি মানুষের কি কাজ করতে পারে তা বোঝা। এজন্য আমরা অনলাইনে মানব জিনোম ডেটাবেজ ব্যবহার করবো।

এ ধাপে মানব জিনোম ওয়েবসাইট ঘুরে আসা যাক। http://genome.ucsc.edu/ ওয়েবসাইটে মানুষের একটি জিন বিশ্লেষণ করবো আমরা।

UCSC এর জিনোম সাইটে গিয়ে ‘Genome Browser’ লিঙ্ক ক্লিক করুন। তারপর সেখানে সার্চবক্সে (Search Term) ‘KCNH2’ লিখে খোঁজ করুন। ওয়েবসাইটে পরের পাতায় যে তালিকা আসবে তার প্রথম লিঙ্কটিতে ক্লিক করুন, যা জিনোমের KCNH2 জিনের ওখানে নিয়ে যাবে। ডিফল্ট সেটিংস অনুযায়ী জিনোমের এই অংশের জিন-মডেল দেখানো হবে এখানে। জিন-মডেলে ছোট ছোট তীর-চিহ্ন দেখতে পারবেন যা দিয়ে ট্রান্সক্রিপশনের (অর্থাৎ ডিএনএ থেকে আরএনএ তৈরির) দিক দেখানো হচ্ছে।

জিনোম ব্রাউজারের বিভিন্ন অংশে কি আছে নাড়াচাড়া করে দেখুন। কোন সেটিংস পরিবর্তন করলে কি হয় তা দেখুন। জিনোম ব্রাউজারের মূল অংশের নিচে বেশ কিছু অপশন আছে, সেগুলো খেয়াল করে দেখুন। জিনোমের ডান-বাম দিকে যাওয়া; কোন অংশ বিবর্ধিত কিংবা ছোট করেও দেখতে পারবেন। জিনোম ব্রাউজারে বেশ কিছু ট্র্যাক (track) রয়েছে। এসব ট্র্যাকে রাইট-ক্লিক করলে তা সম্পর্কে আরো তথ্য পাবেন।


ভাবনার খোরাক

৬ক. KNCH2এর জন্য কি একটি জিন মডেল দেখতে পাচ্ছেন? নাকি একাধিক জিন মডেল দেখা যাচ্ছে? কারণ কি?
৬খ. মানুষের KNCH2 এর সাথে অন্যান্য মেরুদন্ডী প্রাণীর সিকোয়েন্সের মিল তুলনা করে দেখুন (যেমন রেসাস বানর, হাতি ইত্যাদি)। প্রয়োজনে বিবর্ধিত করে দেখুন। বিভিন্ন প্রজাতির এই জিনের মধ্যকার মিল কি প্রোটিন কোডিং অঞ্চল শুরুর আগ (upstream) পর্যন্ত আছে? বিভিন্ন প্রাণীর সাথে এ জিনটির ভিন্ন ভিন্ন অঞ্চলের মিল কিংবা অমিলের কারণ কি হতে?
৬গ. জিনোম ব্রাউজারের নিচে ‘Mapping and Sequencing’ সেকশন থেকে ‘GC percent track’ চালু করে দিন (‘hide’ থেকে ‘full’ পরিবর্তন করে ‘refresh’ বাটন চাপতে হবে)। GC% দেখে কি এক্সন (exon) এর উপস্থিতি নির্ধারণ করা যায়?
৬ঘ. পুনরায় জিনোম ব্রাউজারের নিচ থেকে ‘mRNA and EST track’ হতে ‘Human ESTs’ চিহ্নিত করুন পূর্বে উল্লিখিত ধাপের মতো। EST (expressed sequence tags) গুলো কি জিন মডেলগুলোকে সমর্থন করে? কোন ব্যতিক্রম পাওয়া গেছে?
৬ঙ. একই ভাবে ‘Regulation’ থেকে ‘Encode Regulation’ লিঙ্কে ক্লিক করে অন্তত একটি ‘DNAse’ সম্বলিত লেবেল চিহ্নিত করুন। তারপর পূর্বের পৃষ্ঠায় যান। একই সাথে ‘Regulation’ থেকে ‘OREGANNO’ লিঙ্কটি ক্লিক করুন, সেখান থেকে ‘transcription factors’ চিহ্নিত করুন এবং পূর্বের পৃষ্ঠায় ফিরে যান। ‘Encode Regulation’ সেটিংটি ‘show’ তে পরিবর্তন করে রিফ্রেশ করুন। এখন জিনোম ব্রাউজার পর্যবেক্ষণ করে দেখুন। বিভিন্ন ট্রান্সক্রিপশন ফ্যাক্টর কি DNAse সংবেদনশীল অঞ্চলের সাথে সংগতিপূর্ণ? জিনোমে এসব ট্রান্সক্রিপশন ফ্যক্টর যুক্ত হওয়র স্থান কি আপনার কাছে যথোপযুক্ত মনে হচ্ছে?

Gene Expression & Transcriptome Analysis | Profiling methods & how-tos
RNA-Seq থেকে বিভিন্ন স্যাম্পলে কি কি জিন আলাদাভাবে কাজ করছে বোঝা সম্ভব।

ধাপ ৭: RNA-Seq উপাত্ত


আমরা যে বিশ্লেষণগুলো করছি, তা অনেকের কাছেই অবোধ্য, জটিল কিংবা কঠিন মনে হতে পারে। প্রথম ধাপে সবাই যে সব বিশ্লেষণ সঠিকভাবে করতে পারবেন, এরকম হয়তো হবে না। তবে চেষ্টা করাটাই আসল। ছোটখাটো না পারার ব্যর্থতা আমাদেরকে নতুন জিনিস শেখার দিকে এগিয়ে নিয়ে যায়। প্রশ্ন হলো, অর্ধ-অজ্ঞতাকে সাথে নিয়ে ধৈর্য্য নিয়ে আমরা এগিয়ে যেতে পারছি কি না। যে কোন সমস্যা ও প্রশ্নের জন্য গুগলে, বিভিন্ন বায়োইনফরমেটিক্স গ্রুপ বা ফোরামে, কিংবা আমাকে মেইলে জিজ্ঞাসা করতে ভুলবেন না।

জীবদেহের সকল কলাকোষে একই ডিএনএ থাকে। কিন্তু ভিন্নতা হয় কোন কলায় কোন জিন থেকে প্রোটিন তৈরি হচ্ছে। অর্থাৎ কোন জিন প্রকাশিত হচ্ছে। প্রোটিন নিয়ে সরাসরি কাজ করা কঠিন। কিন্তু প্রোটিন ও ডিএনএ-র অন্তর্বর্তী আরএনএ (বিশেষত মেসেঞ্জার বা mRNA) দিয়ে তুলনামুলক কম ঝামেলায় বের করা সম্ভব কোন জিনটি কোন কলাতে প্রকাশিত (gene expressed) হচ্ছে। একসময় মাইক্রোঅ্যারে খুব জনপ্রিয় ছিলো এ গবেষণায়। এখন অবশ্য RNA-Seq তুলনামূলক সহজ হয়ে গেছে। এ ধাপে আমরা বিভিন্ন অবস্থা (সুস্থ বনাম নিরোগ) কোষে প্রকাশিত আরএনএ-র তুলনামূলক উপাত্ত নিয়ে নাড়াচাড়া করবো।
 

ধরুন,  আপনার কৌতুহল হলো স্বাভাবিক মানব কোষ আর লিউকেমিয়া রোগাক্রান্ত কোষের মাঝে KCNH2 জিনটির আরএনএ প্রকাশের মাঝে পার্থক্য আছে কি না। বেশ ঘাঁটাঘাটি করে আপনি : Diaz-Blanco E, Bruns I, Neumann F, Fischer JC ও অন্যান্য লেখকসমুহের Molecular signature of CD34(+) hematopoietic stem and progenitor cells of patients with CML in chronic phase গবেষণাপত্রটি খুঁজে পেলেন (লিউকেমিয়া জার্নালের মার্চ ২০০৭ সংখ্যায় প্রকাশিত)। এ গবেষণাপত্রে তারা একটি মাইক্রোঅ্যারে পরীক্ষার কথা বর্ণনা করেছেন যার উপাত্ত NCBI এর Geo ডেটাবেজে GDS2342  নং অন্তর্ভুক্তিতে সংরক্ষিত রয়েছে। NCBI এর Geo ডেটাবেজে গিয়ে এর সার্চবক্সে GDS2342  লিখে খুঁজুন। তারপর ‘find gene or symbol’ বক্সে KCNH2 লিখুন।

গ্রাফে ক্লিক করে মাইক্রোঅ্যারে পরীক্ষাটির মূল উপাত্তগুলো দেখুন।

 

ভাবনার খোরাক

৭ক. আপনার কি মনে হয় এই জিনটি স্বাভাবিক ও লিউকেমিয়া কোষের মাঝে ভিন্নভাবে প্রকাশিত হচ্ছে?
৭খ. দুই ধরণের কোষের মধ্যে এই জিনটি আসলেই ভিন্নভাবে প্রকাশিত হচ্ছে কি না তা পরিসংখ্যানের সাহায্য নিয়ে জোড় দিয়ে বলা যেতে পারে। এজন্য এই উপাত্তের উপর যে কোন ধরণের পরিসংখ্যানের পরীক্ষা করুন (উদাহরণ দুই-নমুনা অসমান ভ্যারিয়েন্স যেমন T-test)। এজন্য Excel কিংবা R ব্যবহার করতে পারেন।
৭গ. এই অন্তর্ভূক্তির মূল নথির পৃষ্ঠাতে ফেরত যান। সেখানে ‘Experiment design and value distribution’ লিঙ্কে ক্লিক করুন। উপাত্ত normalize  করার জন্য গবেষকরাকি ধরণের পদ্ধতি ব্যবহার করেছেন?
৭ঘ. আবার অন্তর্ভূক্তির মূল নথির পৃষ্ঠাতে ফেরত যান। সেখান ‘Cluster heatmaps’ ট্যাব থেকে ‘display’ ক্লিক করুন (আপনি তিন ধরনের ক্লাস্টারিং অ্যালগরিদম নিয়ে কাজ করতে পারবেন)।মূল উপাত্তে ৮টি স্বাভাবিক নমুনা ও ৯টি লিউকেমিয়া কোষ-নমুনা নিয়ে কাজ করেছেন। হিটম্যাপের শীর্ষে থাকা নমুনা-বৃক্ষ কি তার সাথে সামঞ্জাস্যপূর্ণ? যদি সামঞ্জাস্যপূর্ণ না হয়, তার কারণ কি হতে পারে?

Phylogenetic tree of Litopterna and Perissodactyla indicates a complex  early history of hoofed mammals | Scientific Reports
ফাইলোজেনেটিক ট্রি দিয়ে বিবর্তনীয় সম্পর্ক বোঝা

ধাপ ৮: ফাইলোজেনেটিক ট্রি নির্মাণ

এ ধাপে আপনি ClustalW ব্যবহার করে একটি neighbor-joining জাতিজনিক (phylogenetic) বৃক্ষ তৈরি করবেন। এ ধরনের গবেষণার জন্য অবশ্য ClustalW খুব অত্যাধুনিক প্রোগ্রাম নয়। তবে ইন্টারনেটে বিশ্লেষণ করার জন্য এটা বেশ সহজ হবে।

প্রথমে একটি fasta flat ফরম্যাটের ফাইল বানান। এর জন্য নোটপ্যাড কিংবা অন্য যে কোন টেক্সট এডিটরে নিচের প্রোটিন সিকোয়েন্সগুলো fasta ফরম্যাটে রেখে দিন:  

– মানুষের KCNH2 জিন
– KCNH2 সিকোয়েন্স ব্লাস্ট করলে ছত্রাক ইস্ট (S. cerevisiae) থেকে পাওয়া নিকটতম আত্মীয় (এটি outgroup হিসেবে কাজ করবে)
– ব্লাস্টের ভিত্তিতে C. elegans কীট থেকে পাওয়া নিকটতম আত্মীয়]
– গবেষণাগারে ইঁদুরের মতো ব্যবহৃত মডেল প্রাণি জেব্রাফিশ (একধরণের মাছ) থেকে পাওয়া সমরূপ সিকোয়েন্স (Uniprot ডেটাবেসে B3DJX4  নং অন্তর্ভূক্তি)
– ইঁদুর থেকে পাওয়া নিকটতম সমরূপ সিকোয়েন্স (Uniprot ডেটাবেসে O35219  অন্তর্ভূক্তি)

আমরা জানি, fasta ফাইল প্রথম লাইনে ‘>’ বা greater than সংকেত দিয়ে শুরু হয়। প্রথম লাইনকে বলে description বা বিবরণ। আপনি সিকোয়েন্সগুলোর বিবরণ হিসেবে শুধু সংক্ষিপ্ত নাম ব্যবহার করতে পারেন। Fasta ফাইলের দ্বিতীয় লাইন থেকে সিকোয়েন্স শুরু হয়।

http://www.ebi.ac.uk/Tools/msa/clustalo/ ওয়েবসাইটটি থেকে Clustal Omega প্রোগ্রামটি বেছে নিন। সেখানে আপনার সিকোয়েন্সগুলো fasta ফাইল হিসেবে প্রবেশ করিয়ে একটি এলাইনমেন্ট তৈরি করুন। তারপর ‘phylogenetic tree’ বাটনে ক্লিক করে NJ (neighbor joining) অ্যালগরিদম ব্যবহার করে জাতিজনিক বৃক্ষ তৈরি করুন। খেয়াল করুন যে আপনার কাছে একটি ক্ল্যাডোগ্রাম ও ফাইলোগ্রাম রয়েছে।

পরের ধাপে একই সিকোয়েন্সগুলো http://tcoffee.crg.cat/apps/tcoffee/do:mcoffee সাইট থেকে M-Coffee অ্যালগরিদম ব্যবহার করে সিকোয়েন্স এলাইনমেন্ট তৈরি করুন। তারপর PhyML প্রোগ্রাম ব্যবহার করে maximum likelihood অ্যালগরিদম অনুযায়ী আরেকটি জাতিজনিক বৃক্ষ নির্মাণ করুন। PhyML প্রোগ্রামটি নিচের লিঙ্কে পাওয়া যাবে:
http://phylogeny.lirmm.fr/phylo_cgi/one_task.cgi?task_type=phyml
http://www.atgc-montpellier.fr/phyml/

এরপর M-Coffee থেকে পাওয়া এলাইনমেন্ট ব্যবহার করে Mr. Bayes প্রোগ্রামটি ব্যবহার করে Bayesian অ্যালগরিদম অনুযায়ী আরেকটি জাতিজনিক বৃক্ষ নির্মাণ করুন। Mr. Bayes প্রোগ্রামটি পাওয়া যাবে এই লিঙ্কে: http://www.phylogeny.fr/one_task.cgi?task_type=mrbayes। No. of generation হিসেবে ১০০০ ব্যবহার করুন।

ভাবনার খোরাক

৮ক. এই বিশ্লেষণ অনুযায়ী কোন প্রজাতি আপনার কাছে মানুষের নিকটতম মনে হয়? নেমাটোড কীট নাকি ইঁদুর?
৮খ. এই প্রোগ্রামগুলো কি একই ফলাফল দিচ্ছে? আপনি কি এই প্রোগ্রামগুলোর ফলাফলের উপর যথেষ্ট আস্থাশীল?

Monomer and dimer transcription factor motif predictions most enriched... |  Download Scientific Diagram
ট্রান্সক্রিপশন ফ্যাক্টর কোথায় বসবে, তার সিকোয়েন্স নির্দিষ্ট হয়ে থাকে।

ধাপ ৯: ট্রান্সক্রিপশন ফ্যাক্টর বসার জায়গা

ধরা যাক আমরা বেশ কিছু জিনের শুরুতে অবস্থিত প্রোমোটার অঞ্চলের সিকোয়েন্স খুঁজে পেয়েছি। এখন এই প্রোমোটার সিকোয়েন্সে বিভিন্ন ট্রান্সক্রিপশন ফ্যাক্টর বসার সাম্ভাব্য স্থান সনাক্ত করতে চাই। এজন্য আমরা MEME প্রোগ্রামটি ব্যবহার করবো। এ ধাপের কাজ করার জন্য আপনাকে এই ফাইলটি ডাউনলোড করে নিতে হবে (ডাউনলোডের জন্য লিঙ্কে রাইট ক্লিক করে save link as বা এ ধরনের অপশন বেছে নিন)। এই fasta ফাইলে ২২০টি প্রোমোটার সিকোয়েন্স রয়েছে। MEME প্রোগ্রামটি ব্যবহারের জন্য নিচের লিঙ্কগুলো থেকে যে কোন একটি সার্ভার ব্যবহার করা যেতে পারে:

http://meme-suite.org
http://tools.genouest.org/tools/meme/intro.html
http://alternate.meme-suite.org/

MEME প্রোগ্রামে গিয়ে সার্চ বক্সে সিকোয়েন্সগুলো কপি-পেস্ট করুন কিংবা fasta ফাইলটি আপলোড করুন।

প্রোগ্রামটি চালানোর জন্য এই প্যারামিটারগুলো ব্যবহার করুন: ডেটাসেটে ন্যূনতম ১০ ও সর্বোচ্চ ৫০টি লক্ষ্যের সন্ধান পাওয়া, মোটিফের দৈর্ঘ্য ৬ থেকে ১৮ বেস, প্রতিটি সিকোয়েন্সে শূণ্য কিংবা একটি প্রত্যাশিত মোটিফ, সব মিলিয়ে পাঁচটি ভিন্ন ভিন্ন মোটিফ এবং মোটিফ কেবলমাত্র প্রদত্ত সিকোয়েন্সেই খোঁজা (reverse strand নয়)।

প্রোগ্রামে উপাত্ত ও প্যারামিটার দিয়ে সাবমিট করুন। প্রোগ্রামটি চলতে কিছু সময় লাগতে পারে, যা সার্ভারের কাজের চাপের উপর নির্ভর করে। ওয়েবসাইটে ফলাফল চলে আসবে। আপনি অপেক্ষা করতে না চাইলে ইমেইল দিতে পারেন — বিশ্লেষণ শেষ হলে তা ইমেইলের মাধ্যমে জানাবে।

এর পর মোটিফ খোঁজার জন্য আরো একটি প্রোগ্রাম ব্যবহার করা যাক। AlignAce ব্যবহার করার জন্য নিচের ওয়েবসাইট:
http://www1.spms.ntu.edu.sg/~chenxin/W-AlignACE/

এখানের ফর্মে পূর্বের মতোই একই সিকোয়েন্সগুলো প্রবেশ করুন। কলাম নাম্বার এলাইনের জন্য ১৪ ঠিক করুন (এটা হলো প্রতি মোটিফে কতগুলো বেস রয়েছে তার সংখ্যা। MEME এ উপরের বিশ্লেষণ থেকে দেখা গিয়েছে মোটিফের গড় দৈর্ঘ্য ১৪ নিউক্লিয়োটাইড)। কতগুলো স্থান প্রত্যাশা করা যায় তর জন্য ২০ ঠিক করুন (টি হলো MEME দিয়ে পাওয়া গড় সংখ্যা)। GC% এর জন্য ০.৪৬ ঠিক করুন।

 

ভাবনার খোরাক:

৯ক. MEME থেকে আপনি কি কি মোটিফ পেলেন? এর মধ্যে কোনটি কি অন্যটির চেয়ে বেশি বিশ্বাসযোগ্য? দেখুন যে প্রতিটি মোটিফের সাথে E-value রয়েছে। ফলাফল দেখে কি মনে হয় এ মোটিফগুলোর মধ্যে কোন কোনটির স্থানিক পক্ষপাত রয়েছে? অর্থাৎ কোন মোটিফ কি প্রদত্ত সিকোয়েন্সের নির্দিষ্ট কোন দিকে বেশি খুঁজে পাওয়া যাচ্ছে? এটা থেকে কি প্রাপ্ত মোটিফ এর সত্যতা সম্পর্কে বিশ্বাসযোগ্যতা বাড়ে?
৯খ. AlignAce ও MEME থেকে পাওয়া মোটিফদের মধ্যে কোনটি কি মিলে যায়? অধিকাংশ ফলাফলই আলাদা — এর কারণ কি হতে পারে?

এতদুর পড়ে ফেলার জন্য আপনাকে অভিনন্দন। আশা করছি, এই টিউটোরিয়াল শেষে আপনারা একটি ‘ম্যাপ’ বা মানচিত্র পাবেন, যার মাধ্যমে ধারণা পাওয়া যায় যে একটি বায়োইনফরমেটিক্স প্রজেক্টে কত রকমের ভিন্ন ভিন্ন বিশ্লেষণ প্রক্রিয়ার মাধ্যমে যেতে হয়। যে কোন প্রশ্নের জন্য নিচে মন্তব্য করুন! শুভেচ্ছা!

বিজ্ঞাপন

আরাফাত রহমান
অণুজীববিজ্ঞানের ছাত্র ছিলাম, বর্তমানে ইউনিভার্সিটি অফ ক্যালিফোর্নিয়া, রিভারসাইড-এ পিএইচডি গবেষক। যুক্ত আছি বায়ো-বায়ো-১ ও অনুসন্ধিৎসু চক্র বিজ্ঞান সংগঠনের সঙ্গে। আমার প্রকাশিত বই "মস্তিষ্ক, ঘুম ও স্বপ্ন" (প্রকৃতি পরিচয়, ২০১৫) ও "প্রাণের বিজ্ঞান" (প্রকৃতি পরিচয়, ২০১৭)।