টিউটোরিয়াল: বায়োইনফরমেটিক্স প্রজেক্টে কিভাবে ভাবতে হয়

Oct 9, 2021

—

লিখেছেন

লেখাটি প্রকল্প, বায়োইনফরমেটিক্স বিভাগে প্রকাশিত

বায়োইনফরমেটিক্স নিয়ে অনেকেই আগ্রহী, অনেকেই বিভিন্ন ধরনের প্রজেক্ট করে পেপার পাবলিশ করতে চায়। বায়োইনফরমেটিক্স নিয়ে কাজ করার জন্য নানা ধরনের টিউটোরিয়ালও রয়েছে ইন্টারনেটে। অনেকক্ষেত্রেই এই টিউটোরিয়ালগুলো টেকনিক্যাল হয়ে যায়। টেকনিক শেখা গুরুত্বপূর্ণ। কিন্তু একই সাথে গুরুত্বপূর্ণ গবেষণার বিভিন্ন দিক নিয়ে ভাবতে শেখা, প্রশ্ন করতে শেখা। বায়োইনফরমেটিক্সের জটিল সফটওয়্যার ও প্রোগ্রাম শিখতে গিয়ে, ডেটা বিশ্লেষণ করতে গিয়ে অনেক সময় সে মৌলিক প্রশ্নগুলো নিয়ে ভাবার কাজটা হারিয়ে যায়।

যে কোন বায়োইনফরমেটিক্স প্রজেক্টে অনেক ধরণের কাজ থাকে। অনেক সময় একটা ছোট প্রশ্নের উত্তর খুঁজে পেতে হিমশিম খেতে হয়। আবার সে প্রশ্নের উত্তর পাওয়ার পর ভিন্ন প্রশ্ন এসে আমাদের অপ্রস্তুত করে দেয়। যেন রহস্যের শেষ নেই। বাস্তবে জিলাপীর প্যাঁচের মতো প্যাঁচালো প্রশ্নের উত্তর খোঁজা, ও নিত্যনতুন বিশ্লেষণ করা জটিল ও সময়সাধ্য কাজ। একটি সত্যিকার প্রজেক্টের খানিকটা স্বাদ পাওয়া এই টিউটেরিয়ালের অন্যতম লক্ষ্য।

এই টিউটোরিয়ালে ডিএনএ সিকোয়েন্সের ডেটা পাওয়ার পর সেগুলো জোড়া লাগানো (এসেম্বলি), জিন সনাক্তকরণ, প্রোটিন নির্ণয়, প্রোটিনটি কোষের কোথায় কাজ করে, জিনোম ব্রাউজার নিয়ে নাড়াচাড়া করা, ডিএনএ তে ট্রান্সক্রিপশন ফ্যাক্টর বসার স্থান বের করা, ফাইলোজেনেটিক ট্রি ইত্যাদি বিষয়ের সাথে আপনাকে পরিচিত করিয়ে দেয়া হবে।

আমি যখন পিএইচডি শুরু করি, তখন প্রফেসর ড. জুডালসনের একটি কোর্স করতে হয়েছিলো, Advances in Bioinformatics and Genomics। সেখানকার একটি এসাইনমেন্টের ভিত্তিতে আমি এই টিউটোরিয়ালটি অনুবাদ করেছি বাংলাদেশের মাইক্রোবায়োলজি, বায়োকেমিস্ট্রি, জেনেটিক ইঞ্জিনিয়ারিং, বোটনি, জুওলজি ইত্যাদি বিভাগসমূহের শিক্ষার্থীদের জন্য। আশা করি, বায়োইনফরমেটিক্সে আগ্রহীদের এই টিউটোরিয়ালটি কাজে আসবে।

সিকোয়েন্স এসেম্বলির মূল ধারণা।

ধাপ ১: সিকোয়েন্স এসেম্বলি

এই প্রজেক্টে আপনাকে একটি অজানা জিনোমের প্লাজমিড লাইব্রেরি থেকে করা ডিএনএ-সিকোয়েন্সের রিড (read) দেয়া হবে।
যে ফাইলটিতে এ সিকোয়েন্সগুলো আছে তার নাম হলো plasmid_library_sequences.txt। এটি fasta ফরম্যাটের ফাইল।
ফাইলটি ডাউনলোড করুন এই লিঙ্ক থেকে: https://goo.gl/G1QKA7
এ সিকোয়েন্সগুলোকে থেকে ভেক্টরের অংশগুলো বাদ দেয়া হয়েছে। এছাড়া খারাপ সিকোয়েন্সগুলোও বাদ দেয়া হয়েছে। তবুও কিছু কিছু সিকোয়েন্সে ’N’ রয়ে গেছে সিকোয়েন্সিং প্রক্রিয়ার অস্পষ্ট বেস কলের (base call) জন্য।
ক্লোনগুলোর নাম খেয়াল করে দেখুন: অধিকাংশেরই প্লাজমিডের ডান ও বাম অংশের রিড রয়েছে (F ও R)।

আপনি plasmid_library_sequences.txt ফাইলে থাকা রিডগুলো জোড়া লাগাতে CAP সিকোয়েন্স এসেম্বলি প্রোগ্রাম ব্যবহার করবেন। একটি সত্যিকারের জিনোম প্রজেক্টে একজন অভিজ্ঞ গবেষক যে ধরণের প্রোগ্রাম ব্যবহার করেন, CAP তেমন কিছু নয়। তবে আমাদের মেন্টরিং কর্মসূচীর প্রাথমিক পর্যায়ের জীববিজ্ঞান-পড়ুয়া একজন সাধারণ শিক্ষার্থীর জন্য এটি সহজ একটি প্রোগ্রাম। এ ফাইলে থাকা সিকোয়েন্সগুলো স্যঙারের প্রক্রিয়ায় সিকোয়েন্সিং করা হয়েছিলো।

অন্তর্জালে বেশ কয়েকটি ওয়েবসাইটে CAP পাওয়া যাবে। এদের মধ্যে কয়েকটি নিচে দেয়া হলো। আমাদের এই কর্মসূচীতে একই প্রোগ্রামের জন্য প্রায়ই একাধিক ওয়েবসাইট দেয়া হবে। আপনাকে যে কোন একটি ব্যবহার করতে হবে। বিকল্প ওয়েবসাইট দেয়ার কারণ হলো যদি কোন সার্ভার কাজ করা বন্ধ করে দেয়।

http://doua.prabi.fr/software/cap3
http://bio-webout.ifom.eu/cap/

এ সাইটগুলো অনুরূপভাবে কাজ করে। তবে এদের ফলাফল ভিন্ন হতে পারে।

প্রদত্ত ফাইল থেকে সিকোয়েন্সগুলো সার্চ-উইন্ডোতে কপি করুন। কিংবা আপলোডও করতে পারেন। তারপর সিকোয়েন্সগুলো assemble করুন। প্রাপ্ত ফলাফল বিশ্লেষণ করতে নিচের প্রশ্নগুলো মাথায় রাখুন। এই প্রশ্নগুলো দিয়েই রিপোর্ট তৈরি করতে হবে।

ভাবনার খোরাক

১(ক). আপনি কি এসেম্বলি থেকে একটি দীর্ঘ কন্টিগ (contig) পেয়েছেন? যদি একটি কন্টিগ না পেয়ে থাকেন, তাহলে কি কি বিষয় দিয়ে তা ব্যাখ্যা করা যায়?

১(খ). এই কন্টিগগুলো জোড়া লাগানোর কোন উপায় রয়েছে? অথবা কোন কন্টিগের পরে কোন কন্টিগ বসবে তার অনুক্রম বের করার জন্য কোন পদ্ধতি কি খুঁজে পাচ্ছেন? (ইঙ্গিত: সিকোয়েন্সের F বা R থেকে কোন সূত্র পাওয়া যায়?)

১(গ). যখন সিকোয়েন্সের মাঝে ’N’ (অসনাক্তকৃত বেস) আসে, বা একাধিক সিকোয়েন্সের মধ্যে যখন অমিল থাকে, তখন CAP প্রোগ্রামটি কি করে?

প্রশ্নগুলো নিয়ে ভাবুন, বারবার। খাতা-কলমের মাধ্যমে ভাবুন। ভাবনা লিখে রাখুন।

যদি মনে হয় অনেক কিছুই বুঝছি না, জানি না ইত্যাদি, তাহলে আপনাকে প্রথমেই যা করতে হবে তা হলো Google Search। এছাড়া Theory of partial ignorance প্রক্রিয়া অনুসরণ করতে বলবো। Theory of partial ignorance সম্পর্কে জানা যাবে এখানে: http://wp.me/p91Qzw-b

সমমনা কয়েকজন একসাথে গ্রুপে কাজ করা শেখার জন্য খুব সহায়ক হতে পারে। পাশাপাশি এ বিষয়ে কোন জিজ্ঞাসা থাকলে ফেসবুকে বায়ো-বায়ো-১ বায়োইনফরমেটিক্স ডিসকাশন ফোরামের সাহায্য নিতে পারেন: https://www.fb.com/groups/biobio1/

জিনের বিভিন্ন অংশ

ধাপ ২: জিন সনাক্তকরণের তিনটি প্রক্রিয়া

প্রথম ধাপের উপাত্ত দিয়েই এ ধাপে কাজ করতে হবে।
CAP প্রোগ্রাম থেকে পাওয়া তিনটি বড় কন্টিগ থেকে সাম্ভাব্য জিন সনাক্ত করতে হবে। কোন কন্টিগে জিন থাকতে পারে, আবার নাও থাকতে পারে!
এখানে তিনটি পদ্ধতির কথা বলা হলো যা আপনি অনুসরণ করতে পারেন। এমন নয় যে আপনাকে সকল কন্টিগই বিশ্লেষণ করতে হবে। তবে বিশ্লেষণ যথেষ্ট পরিমানে হওয়া উচিত যাতে কিছু ‘সত্যিকারের জিন’ আপনি দেখতে পান।
প্রয়োজনে আপনি ডিএনএ সিকোয়েন্সগুলো প্রোটিনে অনুবাদ (ট্রান্সলেট) করে দেখতে পারেন। এজন্য আপনি নিম্নোক্ত প্রোগ্রাম ব্যবহার করতে পারেন:
– http://us.expasy.org/tools/dna.html
– http://bio.lundberg.gu.se/edu/translat.html

প্রথমত, আপনি CAP3 থেকে পাওয়া কন্টিগের মাঝে অবস্থিত সাম্ভাব্য প্রোটিন সনাক্তকরণের জন্য GenBank ডেটাবেজে ব্লাস্ট (BLAST) করে দেখতে পারেন (http://www.ncbi.nlm.nih.gov/blast)। ইঙ্গিত – BLAST এর কোন সংস্করণটি ব্যবহার করা উচিত? সঠিক সংস্করণ ব্যবহার করলে দীর্ঘতর কন্টিগ থেকে অর্থবহ ফলাফল পাওয়া যাবে।

দ্বিতীয়ত, কন্টিগ সিকোয়েন্সের মাঝে মুক্ত পাঠ-কাঠামো (Open Reading Frame) খুঁজে দেখুন। এজন্য https://www.ncbi.nlm.nih.gov/orffinder/ প্রোগ্রামটি ব্যবহার করতে পারেন। প্রোটিন সনাক্তকরণের জন্য এটা কিছুটা স্থুল প্রক্রিয়া। তবে আমাদের সিকোয়েন্সে কোন ইন্ট্রন (intron) নেই — তাই এ ধাপের ফলাফল বিশ্লেষণ বেশ সরল হবে।

তৃতীয়ত, প্রচ্ছন্ন মার্কভ মডেল (Hidden Markov Model) ভিত্তিক প্রোগ্রাম ব্যবহার করে দেখুন (যেমন FGENESB ও GENEMARK)।

FGENESB-এর জন্য http://linux1.softberry.com ওয়েব সাইটটিতে বাম কলামে যান। সেখানে ‘operon and gene finding in bacteria’ লিঙ্ক থেকে FGENESB সনাক্ত করুন। বিভিন্ন ট্রেনিং সেটের বিপরীতে এই প্রোগ্রামটি চালিয়ে দেখুন ফলাফলে কোন পার্থক্য তৈরি হয় কি না।

GENEMARK-এর জন্য http://exon.gatech.edu/GeneMark/ লিঙ্ক-এ যান। ব্যক্টেরিয়ার জন্য নির্দিষ্ট প্রোগ্রাম GeneMarkS ব্যবহার করুন।

খেয়াল রাখুন যে, কিছু কিছু প্রোগ্রামে আপনাকে একটি জীব নির্দিষ্ট করতে হবে । এর মাধ্যমে প্রোগ্রামটি ঠিক করে কোন কোন প্যারামিটার ব্যবহার করতে হবে। এ প্যারামিটারগুলো প্রতিটি জীবের জন্য পূর্বে ঠিক করে দেয়া ট্রেনিং সেটের ভিত্তিতে বের করা হয়। যেহেতু আপনি জানেন না মূল ডেটাসেটে কোন জীবের সিকোয়েন্স ব্যবহার করছেন, তাই ভিন্ন কয়েকটি জীব ব্যবহার করুন।

আরো খেয়াল রাখুন যে আপনার বিভিন্ন প্রোগ্রামের ভিন্ন ভিন্ন সেটিংস কিংবা ফাইল ফরম্যাট পরিবর্তন করে দেখতে হতে পারে।

ভাবনার খোরাক

২ক. কোনটিকে (এক বা একাধিক) আপনার প্রকৃত জিন মনে হয়? কেন?
২খ. এ জিনগুলি কি ধরণের প্রোটিন তৈরি করে?
২গ. FGENESB প্রোগ্রামটি বিভিন্ন প্যারামিটার অনুযায়ি ভিন্ন ভিন্ন ফলাফল দেখায়। কেন?
২ঘ. বিভিন্ন প্রোগ্রামের ফলাফলের পারস্পারিক তুলনা করে কি বোঝা যায়? কিভাবে তুলনা করবেন?

সিকোয়েন্স থেকে প্রোটিন ডোমেইন

ধাপ ৩: প্রোটিন ডোমেইন সনাক্তকরণ

এ ধাপের কাজের জন্য আমরা নতুন ডেটাসেট ব্যবহার করবো।
এই লিঙ্ক থেকে Mystery Sequence.txt ফাইলটি ডাউনলোড করে নিন। ফাইলটি ডাউনলোড না হলে লিঙ্কের উপর রাইট ক্লিক করে Save link as (ইন্টারনেট ব্রাউজার ভেদে ভিন্ন কথা থাকতে পারে) বেছে নিন।
এই ফাইলে EST (Expressed sequencd tag) থেকে তৈরি করা একটি কন্টিগ রয়েছে।

প্রথমত, ডিএনএ সিকোয়েন্সটিকে প্রোটিন সিকোয়েন্সে ট্রান্সলেট করুন। গত সপ্তাহের ইমেইলে (ধাপ-২) উল্লেখিত প্রোগ্রাম ব্যবহার করে ডিএনএ থেকে অ্যামিনো এসিড সিকোয়েন্স অনুবাদ করতে পারবেন। খেয়াল করুন, সিকোয়েন্সে একাধিক reading frame (পাঠ কাঠামো) থাকতে পারে। তাছাড়া সিকোয়েন্সের কোডিং-অঞ্চল প্রথম বেস থেকে শুরু নাও হতে পারে। উল্লেখ্য, এটি কোন ‘অনির্দিষ্ট’ সিকোয়েন্স নয় — এখানে একটি মুক্ত পাঠ কাঠামো (ORF বা Open Reading Frame) অবশ্যই খুঁজে পাওয়া উচিত।

দ্বিতীয়ত, এই সিকোয়েন্সটি BLAST এর মাধ্যমে GenBank-এ খুঁজে দেখুন অনুরূপ সিকোয়েন্স পান কি না।

তৃতীয়ত, সিকোয়েন্সের মধ্যে থাকা বিভিন্ন প্রোটিন ডোমেইন নিম্নোক্ত ডেটাবেসের মাধ্যমে খুঁজে দেখুন:
– NCBI Conserved Domain Database (CDD) [নোট: আপনি NCBI এর মাধ্যমে ব্লাস্ট করলে তা স্বয়ংস্ক্রিয়ভাবেই CDD খুঁজে দেখবে]
– PROSITE
– INTERPRO
– PFAM

ভাবনার খোরাক

৩ক. বিভিন্ন ডেটাবেস খুঁজে এই সিকোয়েন্সে প্রাপ্ত ডোমেইন প্রোটিনটির মূল কাজ সম্পর্কে কি ইঙ্গিত দেয়? সেটা কি BLAST-এ প্রাপ্ত ফলাফলের সাথে সামঞ্জাস্যপূর্ণ?
৩খ. এই অনলাইন প্রোগ্রামগুলোর মধ্যে আপনার কোনটি ভালো লেগেছে? কেন?
৩গ. BLAST প্রোগ্রামের ফলাফল থেকেএই সিকোয়েন্সটি কোন প্রজাতি থেকে এসেছে তা আপনার বের করতে পারা উচিত। সে প্রজাতিটি কি? Mystery_Sequence.txt ফাইলের সিকোয়েন্সটি কি জিনের সম্পূর্ণ কোডিং অংশটি ধারণ করে? এ প্রশ্নর উত্তর খোঁজার জন্য আপনার হয়তো BLAST প্রোগ্রামের প্রথমদিকের ফলাফলের GenBank রেকর্ড দেখা লাগতে পারে।

আমরা দেখেছি কিভাবে সিকোয়েন্স এসেম্বলি করে কন্টিগ তৈরি করতে হয়। কন্টিগ তৈরির পর জিন খুঁজে বের করার কাজ করেছি। এ সপ্তাহে আমাদের লক্ষ্য একটি রহস্যময় জিনের প্রোটিন কি কাজ করে তা বের করা। ধাপে ধাপে আমরা বায়োইনফরমেটিক্স গবেষণার বিভিন্ন বিশ্লেষণ-পদ্ধতি সম্পর্কে জানবো।

ধাপ ৪: প্রোটিন কোষের কোথায় কাজ করে

এখন আমরা গত ধাপে কাজ করা প্রোটিনটি কোষের ঠিক কোন স্থানে কাজ করে (subcellular localization) তা অনুমান করবো।
এজন্য নিচের প্রোগ্রামগুলো ব্যবহার করতে হবে।
সুবিধার্থে ধরে নিতে হবে, প্রোটিনটি কোন প্রাণীকোষ থেকে এসেছে।

নিচের অনলাইন প্রোগ্রামগুলো ব্যবহার প্রোটিনের subcellular localiztion সম্পর্কে জানার চেষ্টা করুন।
– PSORT
– SCLpred
– Multiloc2

কোষের কোন অঞ্চলে প্রোটিনটি সক্রিয় তা দেখার পর বিশ্লেষণ করে দেখুন প্রোটিনটির কোন আন্ত:কোষঝিল্লি ডোমেইন (transmembrane domains) রয়েছে কি না।
– TMHMM
– PRED-TMR2
– HMMTOP
– TMPRED

ভাবনার খোরাক

৪ক. PSORT, SCLpred, ও Multiloc2 প্রোগ্রামগুলোর বিশ্লেষণ অনুসারে প্রোটিনটি কোষের কোন অঞ্চলে সক্রিয়ভাবে কাজ করে? এই ফলাফলগুলো কি নির্ভরযোগ্য?
৪খ. আন্ত‍:কোষঝিল্লী ভবিষ্যদ্বাণীর প্রোগ্রামগুলো কি একই ফলাফল দিচ্ছে (দিলে কেন, না দিলে কেন নয়)?
৪গ. BLAST করে আপনি যে ফলাফল পেয়েছেন, তার সাথে এই বিশ্লেষণের ফলাফলগুলো কি মিলে যায়?

ধাপ ৫: বিভিন্ন জিনোম ব্রাউজারে তুলনা

এই ধাপে আমরা জিনোম প্রজেক্ট ওয়েবসাইট ঘাঁটবো।

প্রথমে, ধাপ-৩ থেকে সনাক্তকৃত প্রোটিনটি দিয়ে কাজ শুরু করতে হবে। http://www.yeastgenome.org ওয়েবসাইটটি ইস্ট অর্থাৎ পাউরুটি তৈরির ছত্রাকের জিনোম সম্পর্কিত বিভিন্ন তথ্য ও টুল ধারণ করে। এখানে Analyze>BLAST মেন্যু হতে ধাপ-৩ থেকে সনাক্তকৃত প্রোটিনটি S. Cerevisiae S228C ডেটাসেটের সাথে তুলনা করতে হবে।

খেয়াল রাখুন, এই ধাপের বিশ্লেষণটি ঠিকমতো করতে হলে আপনাকে সঠিক রকমের BLAST প্রোগ্রাম ও লক্ষ্য ডেটাবেস সনাক্ত করতে হবে। আপনি ফলাফল পেয়ে গেলে ‘Retrieve sequence’ লিঙ্কটি ক্লিক করতে পারেন। তাহলে একটি নতুন ওয়েবপেজ চলে আসবে যেখানে এই ইস্ট জিনটির কাজের বর্ণনা দেয়া আছে। এ ওয়েবপেজটি সময় নিয়ে দেখতে থাকুন — এটা বেশ তথ্যসমৃদ্ধ।

BLAST থেকে আপনি অন্তত দুইটি ভুক্তি পাবেন। কোনটিই যে মুল সিকোয়েন্সের সাথে ভালো মিল তা নয়। কিন্তু আপনাকে ভেবে বের করতে হবে যে ধাপ-৩ এর বিশ্লেষণ থেকে পাওয়া কার্যক্রমের সাথে এই ভুক্তিগুলোর কোনটির কাজ মিলে যায়। পাশাপাশি, এই নতুন সনাক্তকৃত ইস্টের সিকোয়েন্সটি আপনি ডাউনলোড করে রেখে দিন, ধাপ-৭ এ এটি কাজে লাগবে।

দ্বিতীয়ত, C. elegans পোকাটির জিনোম ওয়েবসাইট http://www.wormbase.org এ যান। সেখানে পুনরায় ধাপ-৩ থেকে পাওয়া প্রোটিন সিকোয়েন্সটি BLAST করুন (Tools মেনু থেকে)। তারপর ফলাফল হিসেবে পাওয়া সবচেয়ে অধিক মিল সিকোয়েন্সটি ডাউনলোড করে রাখুন, কারণ ধাপ-৭ এ আমাদের লাগবে।

ভাবনার খোরাক

৫ক. এই দুইটি জিনোম ডেটাবেজে খোঁজার পর কোন সিকোয়েন্স পেলেন?
৫খ. আপনার কি মনে হয় শুরু সিকোয়েন্সে BLAST করে যে নতুন সিকোয়েন্স পাওয়া গেল তারা অনুরূপ/সদৃশ? এদের মধ্যে কাজের দিক দিয়ে কোন মিল থাকতে পারে?
৫গ. এককোষী ছত্রাক ইস্ট ও বহুকোষী কীট C. elegans এর সাথে আপনার ধাপ-৩ থেকে পাওয়া সিকোয়েন্সের যে মিল পাওয়া গেল, তা কিভাবে ব্যখ্যা করবেন? কোনটি বেশি মিলে যায়, কোনটি কম মিলে যায়? আর C. elegans এ আপনার অন্তত ৭টি প্রোটিনের সাথে বেশ শক্তিশালি মিল পাওয়া উচিত, কিন্তু ইস্ট এর ক্ষেত্রে এতোগুলো মিল পাওয়া যায় না। এটা কিভাবে ব্যখ্যা করবেন?

জিনোম ব্রাউজারের নমুনা

ধাপ ৬: মানব জিনোম ব্রাউজার নিয়ে নাড়াচাড়া

এখন পর্যন্ত আমরা সিকোয়েন্স রিড জোড়া লাগিয়ে কন্টিগ তৈরি করেছি। সে কন্টিগে জিন খুঁজেছি, জিন থেকে প্রোটিন খুঁজেছি। প্রোটিন আসলেই আছে কি না তা বোঝার জন্য বিভিন্ন ডোমেইন দেখেছি। প্রোটিনটি কোষের কোন স্থানে কাজ করে তা আন্দাজ করার চেষ্টা করেছি কম্পিউটেশনাল টুল ব্যবহার করে। বিভিন্ন দূরবর্তী জীব যেমন এককোষী ইস্ট ও বহুকোষী C. elegans কীটে এই জিনটি সংরক্ষিত কি না তা বের করার চেষ্টা করেছি। এখন সময় হলো এই জিনটি মানুষের কি কাজ করতে পারে তা বোঝা। এজন্য আমরা অনলাইনে মানব জিনোম ডেটাবেজ ব্যবহার করবো।

এ ধাপে মানব জিনোম ওয়েবসাইট ঘুরে আসা যাক। http://genome.ucsc.edu/ ওয়েবসাইটে মানুষের একটি জিন বিশ্লেষণ করবো আমরা।

UCSC এর জিনোম সাইটে গিয়ে ‘Genome Browser’ লিঙ্ক ক্লিক করুন। তারপর সেখানে সার্চবক্সে (Search Term) ‘KCNH2’ লিখে খোঁজ করুন। ওয়েবসাইটে পরের পাতায় যে তালিকা আসবে তার প্রথম লিঙ্কটিতে ক্লিক করুন, যা জিনোমের KCNH2 জিনের ওখানে নিয়ে যাবে। ডিফল্ট সেটিংস অনুযায়ী জিনোমের এই অংশের জিন-মডেল দেখানো হবে এখানে। জিন-মডেলে ছোট ছোট তীর-চিহ্ন দেখতে পারবেন যা দিয়ে ট্রান্সক্রিপশনের (অর্থাৎ ডিএনএ থেকে আরএনএ তৈরির) দিক দেখানো হচ্ছে।

জিনোম ব্রাউজারের বিভিন্ন অংশে কি আছে নাড়াচাড়া করে দেখুন। কোন সেটিংস পরিবর্তন করলে কি হয় তা দেখুন। জিনোম ব্রাউজারের মূল অংশের নিচে বেশ কিছু অপশন আছে, সেগুলো খেয়াল করে দেখুন। জিনোমের ডান-বাম দিকে যাওয়া; কোন অংশ বিবর্ধিত কিংবা ছোট করেও দেখতে পারবেন। জিনোম ব্রাউজারে বেশ কিছু ট্র্যাক (track) রয়েছে। এসব ট্র্যাকে রাইট-ক্লিক করলে তা সম্পর্কে আরো তথ্য পাবেন।

ভাবনার খোরাক

৬ক. KNCH2এর জন্য কি একটি জিন মডেল দেখতে পাচ্ছেন? নাকি একাধিক জিন মডেল দেখা যাচ্ছে? কারণ কি?
৬খ. মানুষের KNCH2 এর সাথে অন্যান্য মেরুদন্ডী প্রাণীর সিকোয়েন্সের মিল তুলনা করে দেখুন (যেমন রেসাস বানর, হাতি ইত্যাদি)। প্রয়োজনে বিবর্ধিত করে দেখুন। বিভিন্ন প্রজাতির এই জিনের মধ্যকার মিল কি প্রোটিন কোডিং অঞ্চল শুরুর আগ (upstream) পর্যন্ত আছে? বিভিন্ন প্রাণীর সাথে এ জিনটির ভিন্ন ভিন্ন অঞ্চলের মিল কিংবা অমিলের কারণ কি হতে?
৬গ. জিনোম ব্রাউজারের নিচে ‘Mapping and Sequencing’ সেকশন থেকে ‘GC percent track’ চালু করে দিন (‘hide’ থেকে ‘full’ পরিবর্তন করে ‘refresh’ বাটন চাপতে হবে)। GC% দেখে কি এক্সন (exon) এর উপস্থিতি নির্ধারণ করা যায়?
৬ঘ. পুনরায় জিনোম ব্রাউজারের নিচ থেকে ‘mRNA and EST track’ হতে ‘Human ESTs’ চিহ্নিত করুন পূর্বে উল্লিখিত ধাপের মতো। EST (expressed sequence tags) গুলো কি জিন মডেলগুলোকে সমর্থন করে? কোন ব্যতিক্রম পাওয়া গেছে?
৬ঙ. একই ভাবে ‘Regulation’ থেকে ‘Encode Regulation’ লিঙ্কে ক্লিক করে অন্তত একটি ‘DNAse’ সম্বলিত লেবেল চিহ্নিত করুন। তারপর পূর্বের পৃষ্ঠায় যান। একই সাথে ‘Regulation’ থেকে ‘OREGANNO’ লিঙ্কটি ক্লিক করুন, সেখান থেকে ‘transcription factors’ চিহ্নিত করুন এবং পূর্বের পৃষ্ঠায় ফিরে যান। ‘Encode Regulation’ সেটিংটি ‘show’ তে পরিবর্তন করে রিফ্রেশ করুন। এখন জিনোম ব্রাউজার পর্যবেক্ষণ করে দেখুন। বিভিন্ন ট্রান্সক্রিপশন ফ্যাক্টর কি DNAse সংবেদনশীল অঞ্চলের সাথে সংগতিপূর্ণ? জিনোমে এসব ট্রান্সক্রিপশন ফ্যক্টর যুক্ত হওয়র স্থান কি আপনার কাছে যথোপযুক্ত মনে হচ্ছে?

RNA-Seq থেকে বিভিন্ন স্যাম্পলে কি কি জিন আলাদাভাবে কাজ করছে বোঝা সম্ভব।

ধাপ ৭: RNA-Seq উপাত্ত

আমরা যে বিশ্লেষণগুলো করছি, তা অনেকের কাছেই অবোধ্য, জটিল কিংবা কঠিন মনে হতে পারে। প্রথম ধাপে সবাই যে সব বিশ্লেষণ সঠিকভাবে করতে পারবেন, এরকম হয়তো হবে না। তবে চেষ্টা করাটাই আসল। ছোটখাটো না পারার ব্যর্থতা আমাদেরকে নতুন জিনিস শেখার দিকে এগিয়ে নিয়ে যায়। প্রশ্ন হলো, অর্ধ-অজ্ঞতাকে সাথে নিয়ে ধৈর্য্য নিয়ে আমরা এগিয়ে যেতে পারছি কি না। যে কোন সমস্যা ও প্রশ্নের জন্য গুগলে, বিভিন্ন বায়োইনফরমেটিক্স গ্রুপ বা ফোরামে, কিংবা আমাকে মেইলে জিজ্ঞাসা করতে ভুলবেন না।

জীবদেহের সকল কলাকোষে একই ডিএনএ থাকে। কিন্তু ভিন্নতা হয় কোন কলায় কোন জিন থেকে প্রোটিন তৈরি হচ্ছে। অর্থাৎ কোন জিন প্রকাশিত হচ্ছে। প্রোটিন নিয়ে সরাসরি কাজ করা কঠিন। কিন্তু প্রোটিন ও ডিএনএ-র অন্তর্বর্তী আরএনএ (বিশেষত মেসেঞ্জার বা mRNA) দিয়ে তুলনামুলক কম ঝামেলায় বের করা সম্ভব কোন জিনটি কোন কলাতে প্রকাশিত (gene expressed) হচ্ছে। একসময় মাইক্রোঅ্যারে খুব জনপ্রিয় ছিলো এ গবেষণায়। এখন অবশ্য RNA-Seq তুলনামূলক সহজ হয়ে গেছে। এ ধাপে আমরা বিভিন্ন অবস্থা (সুস্থ বনাম নিরোগ) কোষে প্রকাশিত আরএনএ-র তুলনামূলক উপাত্ত নিয়ে নাড়াচাড়া করবো।

ধরুন, আপনার কৌতুহল হলো স্বাভাবিক মানব কোষ আর লিউকেমিয়া রোগাক্রান্ত কোষের মাঝে KCNH2 জিনটির আরএনএ প্রকাশের মাঝে পার্থক্য আছে কি না। বেশ ঘাঁটাঘাটি করে আপনি : Diaz-Blanco E, Bruns I, Neumann F, Fischer JC ও অন্যান্য লেখকসমুহের Molecular signature of CD34(+) hematopoietic stem and progenitor cells of patients with CML in chronic phase গবেষণাপত্রটি খুঁজে পেলেন (লিউকেমিয়া জার্নালের মার্চ ২০০৭ সংখ্যায় প্রকাশিত)। এ গবেষণাপত্রে তারা একটি মাইক্রোঅ্যারে পরীক্ষার কথা বর্ণনা করেছেন যার উপাত্ত NCBI এর Geo ডেটাবেজে GDS2342 নং অন্তর্ভুক্তিতে সংরক্ষিত রয়েছে। NCBI এর Geo ডেটাবেজে গিয়ে এর সার্চবক্সে GDS2342 লিখে খুঁজুন। তারপর ‘find gene or symbol’ বক্সে KCNH2 লিখুন।

গ্রাফে ক্লিক করে মাইক্রোঅ্যারে পরীক্ষাটির মূল উপাত্তগুলো দেখুন।

ভাবনার খোরাক

৭ক. আপনার কি মনে হয় এই জিনটি স্বাভাবিক ও লিউকেমিয়া কোষের মাঝে ভিন্নভাবে প্রকাশিত হচ্ছে?
৭খ. দুই ধরণের কোষের মধ্যে এই জিনটি আসলেই ভিন্নভাবে প্রকাশিত হচ্ছে কি না তা পরিসংখ্যানের সাহায্য নিয়ে জোড় দিয়ে বলা যেতে পারে। এজন্য এই উপাত্তের উপর যে কোন ধরণের পরিসংখ্যানের পরীক্ষা করুন (উদাহরণ দুই-নমুনা অসমান ভ্যারিয়েন্স যেমন T-test)। এজন্য Excel কিংবা R ব্যবহার করতে পারেন।
৭গ. এই অন্তর্ভূক্তির মূল নথির পৃষ্ঠাতে ফেরত যান। সেখানে ‘Experiment design and value distribution’ লিঙ্কে ক্লিক করুন। উপাত্ত normalize করার জন্য গবেষকরাকি ধরণের পদ্ধতি ব্যবহার করেছেন?
৭ঘ. আবার অন্তর্ভূক্তির মূল নথির পৃষ্ঠাতে ফেরত যান। সেখান ‘Cluster heatmaps’ ট্যাব থেকে ‘display’ ক্লিক করুন (আপনি তিন ধরনের ক্লাস্টারিং অ্যালগরিদম নিয়ে কাজ করতে পারবেন)।মূল উপাত্তে ৮টি স্বাভাবিক নমুনা ও ৯টি লিউকেমিয়া কোষ-নমুনা নিয়ে কাজ করেছেন। হিটম্যাপের শীর্ষে থাকা নমুনা-বৃক্ষ কি তার সাথে সামঞ্জাস্যপূর্ণ? যদি সামঞ্জাস্যপূর্ণ না হয়, তার কারণ কি হতে পারে?

ফাইলোজেনেটিক ট্রি দিয়ে বিবর্তনীয় সম্পর্ক বোঝা

ধাপ ৮: ফাইলোজেনেটিক ট্রি নির্মাণ

এ ধাপে আপনি ClustalW ব্যবহার করে একটি neighbor-joining জাতিজনিক (phylogenetic) বৃক্ষ তৈরি করবেন। এ ধরনের গবেষণার জন্য অবশ্য ClustalW খুব অত্যাধুনিক প্রোগ্রাম নয়। তবে ইন্টারনেটে বিশ্লেষণ করার জন্য এটা বেশ সহজ হবে।

প্রথমে একটি fasta flat ফরম্যাটের ফাইল বানান। এর জন্য নোটপ্যাড কিংবা অন্য যে কোন টেক্সট এডিটরে নিচের প্রোটিন সিকোয়েন্সগুলো fasta ফরম্যাটে রেখে দিন:

– মানুষের KCNH2 জিন
– KCNH2 সিকোয়েন্স ব্লাস্ট করলে ছত্রাক ইস্ট (S. cerevisiae) থেকে পাওয়া নিকটতম আত্মীয় (এটি outgroup হিসেবে কাজ করবে)
– ব্লাস্টের ভিত্তিতে C. elegans কীট থেকে পাওয়া নিকটতম আত্মীয়]
– গবেষণাগারে ইঁদুরের মতো ব্যবহৃত মডেল প্রাণি জেব্রাফিশ (একধরণের মাছ) থেকে পাওয়া সমরূপ সিকোয়েন্স (Uniprot ডেটাবেসে B3DJX4 নং অন্তর্ভূক্তি)
– ইঁদুর থেকে পাওয়া নিকটতম সমরূপ সিকোয়েন্স (Uniprot ডেটাবেসে O35219 অন্তর্ভূক্তি)

আমরা জানি, fasta ফাইল প্রথম লাইনে ‘>’ বা greater than সংকেত দিয়ে শুরু হয়। প্রথম লাইনকে বলে description বা বিবরণ। আপনি সিকোয়েন্সগুলোর বিবরণ হিসেবে শুধু সংক্ষিপ্ত নাম ব্যবহার করতে পারেন। Fasta ফাইলের দ্বিতীয় লাইন থেকে সিকোয়েন্স শুরু হয়।

http://www.ebi.ac.uk/Tools/msa/clustalo/ ওয়েবসাইটটি থেকে Clustal Omega প্রোগ্রামটি বেছে নিন। সেখানে আপনার সিকোয়েন্সগুলো fasta ফাইল হিসেবে প্রবেশ করিয়ে একটি এলাইনমেন্ট তৈরি করুন। তারপর ‘phylogenetic tree’ বাটনে ক্লিক করে NJ (neighbor joining) অ্যালগরিদম ব্যবহার করে জাতিজনিক বৃক্ষ তৈরি করুন। খেয়াল করুন যে আপনার কাছে একটি ক্ল্যাডোগ্রাম ও ফাইলোগ্রাম রয়েছে।

পরের ধাপে একই সিকোয়েন্সগুলো http://tcoffee.crg.cat/apps/tcoffee/do:mcoffee সাইট থেকে M-Coffee অ্যালগরিদম ব্যবহার করে সিকোয়েন্স এলাইনমেন্ট তৈরি করুন। তারপর PhyML প্রোগ্রাম ব্যবহার করে maximum likelihood অ্যালগরিদম অনুযায়ী আরেকটি জাতিজনিক বৃক্ষ নির্মাণ করুন। PhyML প্রোগ্রামটি নিচের লিঙ্কে পাওয়া যাবে:
– http://phylogeny.lirmm.fr/phylo_cgi/one_task.cgi?task_type=phyml
– http://www.atgc-montpellier.fr/phyml/

এরপর M-Coffee থেকে পাওয়া এলাইনমেন্ট ব্যবহার করে Mr. Bayes প্রোগ্রামটি ব্যবহার করে Bayesian অ্যালগরিদম অনুযায়ী আরেকটি জাতিজনিক বৃক্ষ নির্মাণ করুন। Mr. Bayes প্রোগ্রামটি পাওয়া যাবে এই লিঙ্কে: http://www.phylogeny.fr/one_task.cgi?task_type=mrbayes। No. of generation হিসেবে ১০০০ ব্যবহার করুন।

ভাবনার খোরাক

৮ক. এই বিশ্লেষণ অনুযায়ী কোন প্রজাতি আপনার কাছে মানুষের নিকটতম মনে হয়? নেমাটোড কীট নাকি ইঁদুর?
৮খ. এই প্রোগ্রামগুলো কি একই ফলাফল দিচ্ছে? আপনি কি এই প্রোগ্রামগুলোর ফলাফলের উপর যথেষ্ট আস্থাশীল?

ট্রান্সক্রিপশন ফ্যাক্টর কোথায় বসবে, তার সিকোয়েন্স নির্দিষ্ট হয়ে থাকে।

ধাপ ৯: ট্রান্সক্রিপশন ফ্যাক্টর বসার জায়গা

ধরা যাক আমরা বেশ কিছু জিনের শুরুতে অবস্থিত প্রোমোটার অঞ্চলের সিকোয়েন্স খুঁজে পেয়েছি। এখন এই প্রোমোটার সিকোয়েন্সে বিভিন্ন ট্রান্সক্রিপশন ফ্যাক্টর বসার সাম্ভাব্য স্থান সনাক্ত করতে চাই। এজন্য আমরা MEME প্রোগ্রামটি ব্যবহার করবো। এ ধাপের কাজ করার জন্য আপনাকে এই ফাইলটি ডাউনলোড করে নিতে হবে (ডাউনলোডের জন্য লিঙ্কে রাইট ক্লিক করে save link as বা এ ধরনের অপশন বেছে নিন)। এই fasta ফাইলে ২২০টি প্রোমোটার সিকোয়েন্স রয়েছে। MEME প্রোগ্রামটি ব্যবহারের জন্য নিচের লিঙ্কগুলো থেকে যে কোন একটি সার্ভার ব্যবহার করা যেতে পারে:

http://meme-suite.org
http://tools.genouest.org/tools/meme/intro.html
http://alternate.meme-suite.org/

MEME প্রোগ্রামে গিয়ে সার্চ বক্সে সিকোয়েন্সগুলো কপি-পেস্ট করুন কিংবা fasta ফাইলটি আপলোড করুন।

প্রোগ্রামটি চালানোর জন্য এই প্যারামিটারগুলো ব্যবহার করুন: ডেটাসেটে ন্যূনতম ১০ ও সর্বোচ্চ ৫০টি লক্ষ্যের সন্ধান পাওয়া, মোটিফের দৈর্ঘ্য ৬ থেকে ১৮ বেস, প্রতিটি সিকোয়েন্সে শূণ্য কিংবা একটি প্রত্যাশিত মোটিফ, সব মিলিয়ে পাঁচটি ভিন্ন ভিন্ন মোটিফ এবং মোটিফ কেবলমাত্র প্রদত্ত সিকোয়েন্সেই খোঁজা (reverse strand নয়)।

প্রোগ্রামে উপাত্ত ও প্যারামিটার দিয়ে সাবমিট করুন। প্রোগ্রামটি চলতে কিছু সময় লাগতে পারে, যা সার্ভারের কাজের চাপের উপর নির্ভর করে। ওয়েবসাইটে ফলাফল চলে আসবে। আপনি অপেক্ষা করতে না চাইলে ইমেইল দিতে পারেন — বিশ্লেষণ শেষ হলে তা ইমেইলের মাধ্যমে জানাবে।

এর পর মোটিফ খোঁজার জন্য আরো একটি প্রোগ্রাম ব্যবহার করা যাক। AlignAce ব্যবহার করার জন্য নিচের ওয়েবসাইট:
http://www1.spms.ntu.edu.sg/~chenxin/W-AlignACE/

এখানের ফর্মে পূর্বের মতোই একই সিকোয়েন্সগুলো প্রবেশ করুন। কলাম নাম্বার এলাইনের জন্য ১৪ ঠিক করুন (এটা হলো প্রতি মোটিফে কতগুলো বেস রয়েছে তার সংখ্যা। MEME এ উপরের বিশ্লেষণ থেকে দেখা গিয়েছে মোটিফের গড় দৈর্ঘ্য ১৪ নিউক্লিয়োটাইড)। কতগুলো স্থান প্রত্যাশা করা যায় তর জন্য ২০ ঠিক করুন (টি হলো MEME দিয়ে পাওয়া গড় সংখ্যা)। GC% এর জন্য ০.৪৬ ঠিক করুন।

ভাবনার খোরাক:

৯ক. MEME থেকে আপনি কি কি মোটিফ পেলেন? এর মধ্যে কোনটি কি অন্যটির চেয়ে বেশি বিশ্বাসযোগ্য? দেখুন যে প্রতিটি মোটিফের সাথে E-value রয়েছে। ফলাফল দেখে কি মনে হয় এ মোটিফগুলোর মধ্যে কোন কোনটির স্থানিক পক্ষপাত রয়েছে? অর্থাৎ কোন মোটিফ কি প্রদত্ত সিকোয়েন্সের নির্দিষ্ট কোন দিকে বেশি খুঁজে পাওয়া যাচ্ছে? এটা থেকে কি প্রাপ্ত মোটিফ এর সত্যতা সম্পর্কে বিশ্বাসযোগ্যতা বাড়ে?
৯খ. AlignAce ও MEME থেকে পাওয়া মোটিফদের মধ্যে কোনটি কি মিলে যায়? অধিকাংশ ফলাফলই আলাদা — এর কারণ কি হতে পারে?

এতদুর পড়ে ফেলার জন্য আপনাকে অভিনন্দন। আশা করছি, এই টিউটোরিয়াল শেষে আপনারা একটি ‘ম্যাপ’ বা মানচিত্র পাবেন, যার মাধ্যমে ধারণা পাওয়া যায় যে একটি বায়োইনফরমেটিক্স প্রজেক্টে কত রকমের ভিন্ন ভিন্ন বিশ্লেষণ প্রক্রিয়ার মাধ্যমে যেতে হয়। যে কোন প্রশ্নের জন্য নিচে মন্তব্য করুন! শুভেচ্ছা!

আমি কার্ল জিমারের গেম অব জিনোমস অনুবাদ করছি। বায়োইনফরমেটিক্সে আগ্রহী হয়ে থাকলে এটা পড়তে পারেন। এছাড়া UPL থেকে আমার বই ‘জেনেটিক্স – বংশগতিবিদ্যার সহজপাঠ’ আসতে যাচ্ছে খুব সম্প্রতি।

লেখাটি 2,194-বার পড়া হয়েছে।

আরাফাত রহমান

ঢাকা বিশ্ববিদ্যালয় থেকে অণুজীববিজ্ঞান বিভাগে স্নাতক ও স্নাতকোত্তর শেষ করে ইউনিভার্সিটি অব ক্যালিফোর্নিয়া থেকে জেনেটিক্স, জিনোমিক্স ও বায়োইনফরমেটিক্স বিষয়ে পিএইচডি সম্পন্ন করেছি।বর্তমানে ওরেগন স্টেট ইউনিভার্সিটিতে পোস্ট-ডক্টোরাল গবেষক হিসেবে কার্যরত আছি।আমার প্রকাশিত বই “জেনেটিক্স: বংশগতিবিদ্যার সহজপাঠ” (UPL/প্রকৃতি পরিচয়, ২০২২), “মস্তিষ্ক, ঘুম ও স্বপ্ন” (প্রকৃতি পরিচয়, ২০১৫) ও “প্রাণের বিজ্ঞান” (প্রকৃতি পরিচয়, ২০১৭)।

আলোচনা

Responses

মিঠুন পাল
October 9, 2021
This is a complete guide for all. Thank u Sir.
Reply
1. আরাফাত রহমান
  October 10, 2021
  Hope this is useful 🙂
  Reply
Emran ahmed
October 10, 2021
প্রবন্ধটি দারুন লেগেছে। লেখককে এমন তথ্যবহুল লেখার জন্য ধন্যবাদ জানাই।
Reply
1. আরাফাত রহমান
  October 10, 2021
  আপনাকেও ধন্যবাদ 🙂
  Reply
মুন এহসান
October 10, 2021
অনেক উপকার হলো, ধন্যবাদ ভাইয়া
Reply
1. আরাফাত রহমান
  October 10, 2021
  জানানোর জন্য ধন্যবাদ!!
  Reply
Musfeka Ikfat Mitu
October 11, 2021
Thanks Vai. I’m waiting for your ‘Genetics’ book.Has it been published?
Reply
1. আরাফাত
  October 11, 2021
  It’s not! Unfortunately, there was catastrophic COVID19 events in the publishers family. Now we have started working on that again. Thanks for your interest 🙂
  Reply
জুবায়ের বিন লিয়াকত
October 14, 2021
অসাধারণ তথ্যবহুল লেখার জন্য ধন্যবাদ জানাই।
Reply
1. আরাফাত রহমান
  October 15, 2021
  ধন্যবাদ!
  Reply
Maksudur Rahman Nayem
December 3, 2021
That was helpful. please write a book on bioinformatics in bangla sir.
Reply
1. আরাফাত রহমান
  December 8, 2021
  আমার ইচ্ছে আছে লেখার। ধন্যবাদ মন্তব্যের জন্য।
  Reply