La bioinformatique est l'application des techniques informatiques dans le domaine de la biologie. Les objectifs de la bioinformatique sont d'aider les scientifiques de la vie dans l'organisation des données biologiques et le développement des outils informatiques nécessaires à la découverte de nouvelles hypothèses scientifiques . Techniques de classification, également connu sous le nom des techniques de clustering , sont importants en bioinformatique , car ils permettent la séparation des différentes données biologiques avec des attributs similaires dans des ensembles distincts. Histoire
La taille des données biologiques a connu une croissance exponentielle , avec le doublement de l'information observée tous les 15 mois . En conséquence , l'informatique et les techniques informatiques sont utilisés de manière intensive dans le traitement et la gestion des données biologiques. Le concept le plus fondamental en bioinformatique est que les données partagent des caractéristiques similaires plus biologiques et peut être séparé en clusters. Par exemple, les gènes d'un organisme peuvent être classés dans leurs groupes fonctionnels ou des voies métaboliques . Les protéines peuvent également être classés en fonction des gènes qui sont exprimés . Techniques de classification ou de regroupement sont nécessaires dans la gestion des bases de données énormes de données génétiques et biologiques . Il existe deux principaux types de techniques de classification en bioinformatique : . Les techniques de classification hiérarchique et le k -Means
Classification hiérarchique
La technique de classification hiérarchique organise les données biologiques dans un la structure de données arborescente . Les gènes sont exprimés sous forme de nœuds dans l'arbre , tandis que chaque sous- arborescence de noeuds représente une grappe ou un groupement de gènes. L'arbre peut être soit ancrée ou non racinées . Un arbre dont la racine est défini comme un arbre avec un seul nœud au sommet. En revanche, un arbre déraciné a plusieurs nœuds le plus élevé .
K-means Classification
une technique de classification plus complexe est la classification k -means , qui tente de trouver un ensemble de centres qui minimisent la distorsion d'erreur quadratique entre les ensembles de données dans l'espace multidimensionnel . Un cluster est classé en regroupant les points liés à son centre le plus proche. L'algorithme de Lloyd est souvent utilisé dans la technique de classification k -means . Dans cet algorithme , les points de données sont disposées au hasard en groupes séparés , qui sont ensuite optimisées pour produire des distorsions de l'erreur quadratique locales minimes.
Importance
protéines apparentées ont été classés en groupes homogènes , sciences de la vie peuvent utiliser cette information pour prédire les propriétés de certaines protéines moins étudiées . Ceci est également applicable à d'autres aspects de la structure des protéines. Une autre utilisation des techniques de classification est de résoudre le problème de la détermination de l' arbre de l'évolution de certains organismes sur la base de leurs séquences génétiques. L' arbre de l'évolution est construit à partir de la séquence d'ADN de l'organisme en utilisant soit hiérarchique ou k-means techniques de classification .
Considérations
technique de classification hiérarchique est relativement simple et efficace façon de regrouper les données biologiques . En revanche, aucun algorithme efficace existe au moment de l'écriture qui est en mesure d'effectuer efficacement la technique de classification k- Means que la taille des données augmente biologiques. Cela suggère qu'une grande puissance de calcul est souvent nécessaire d'effectuer classification k -means , ce qui est un facteur important à considérer lors du choix de la technique de classification à utiliser dans les applications de bioinformatique .