Busque entre los 166285 recursos disponibles en el repositorio
Mostrar el registro sencillo del ítem
dc.date.accessioned | 2014-10-28T13:04:05Z | |
dc.date.available | 2014-10-28T13:04:05Z | |
dc.date.issued | 2014-05 | |
dc.identifier.uri | http://sedici.unlp.edu.ar/handle/10915/41971 | |
dc.description.abstract | Las modernas técnicas de secuenciación de ADN transforman su estructura química en secuencias informáticas de símbolos cada una de las cuales puede ser vista como una instancia de una base de datos. Es posible entonces aplicar técnicas para clasificar casos y predecir patrones de comportamiento de forma similar a como se lo hace sobre otros dominios como las finanzas, el marketing o el texto, aunque la complejidad del dominio microbiológico pueda llevar a una tarea un poco más ardua. En tal sentido la aplicación de data mining en los estudios genómicos es un hecho consolidado en la investigación biológica pues en ella también se trata de clasificar y descubrir patrones sobre grandes bases de datos con el auxilio de técnicas combinadas de aprendizaje automático, estadística y visualización lo que en suma no es más que la definición ontológica de la minería de datos. El trabajo aquí presentado se refiere a secuencias de ADN correspondientes a distintos microorganismos extraídas de muestras de suelo con el objetivo de evaluar los patrones de riqueza y diversidad de la comunidad microbiológica que lo integra. En particular cada secuencia de ADN correspondiente al gen 16S rRNA que integra la muestra se identificará con un organismo distinto. La tecnología de secuenciación actual es capaz de obtener miles de estas cadenas de símbolos correspondientes a los cuatro componentes básicos del ADN: Aadenina, T-timina, C-citocina y Gguanina. Cada parte de un gen será entonces una secuencia de unos cientos de estos símbolos colocados en algún orden. Tal como se hace por ejemplo en text mining, se puede definir una distancia conveniente entre secuencias y con ella producir un clustering que agrupe las secuencias según su similitud. Así, eligiendo un umbral de disimilaridad adecuado, cada agrupamiento estará integrado por secuencias correspondientes a individuos de la misma especie, Estos clusters se denominan Unidades Taxonómicas Operacionales y a partir de su distribución de abundancia en la muestra, se pretende establecer el patrón de riqueza de la comunidad, lo que significa establecer el número de especies que hay en la misma. Esta tarea se topa con un serio problema estadístico pues en microbiología más del 70% de las especies pueden ser estadísticamente raras a la vez que un 10% es muy abundante. De tal forma las muestras no contienen individuos de muchas especies presentes y a su vez presentan muchos individuos de las especies dominantes. Es decir; toda muestra resulta pequeña para una inferencia estadística simple de la riqueza poblacional. El algoritmo de recuento de especies ARE, ya presentado en otros trabajos (1) y (2), mejora las estimaciones no paramétricas habituales y las hace compatibles con las apreciaciones ecológicas. En términos más generales el algoritmo resuelve en forma eficiente el problema de inferir desde una muestra de casos el número de clases de casos que hay en una población que contiene una alta proporción de clases raras. Este problema se reconoce también, por ejemplo, en el análisis de texto donde cada palabra distinta es una clase y hay palabras muy poco frecuentes (3). Hay que remarcar que el número inferido para la riqueza como cantidad de especies distintas, o si se quiere palabras distintas, constituye una guía imprescindible para afinar el clustering que se realice sobre nuevas muestras de la población para determinar una clasificación estable y aplicable luego para predicción. En este trabajo se planteó el objetivo de desarrollar un programa escrito en Lenguaje C o C++ que permitiera reemplazar al programa del algoritmo ARE escrito en lenguaje R con el fin de mejorar los tiempos de ejecución Se estudian además las posibilidades de paralelización en la ejecución de los algoritmos. | es |
dc.format.extent | 158-162 | es |
dc.language | es | es |
dc.subject | Data mining | es |
dc.subject | ADN | es |
dc.subject | técnicas de secuenciación | es |
dc.subject | PATTERN RECOGNITION | es |
dc.subject | bases de datos | es |
dc.subject | instancias | es |
dc.subject | patrones de comportamiento | es |
dc.title | Data Mining en evaluaciones de biodiversidad | es |
dc.type | Objeto de conferencia | es |
sedici.creator.person | López, Luis | es |
sedici.creator.person | Martínez, Pablo | es |
sedici.creator.person | Cacho Mendoza, Ariel Alejandro | es |
sedici.creator.person | Soria, Marcelo A. | es |
sedici.creator.person | Santa María, Cristóbal | es |
sedici.description.note | Eje: Bases de Datos y Minería de Datos | es |
sedici.subject.materias | Ciencias Informáticas | es |
sedici.description.fulltext | true | es |
mods.originInfo.place | Red de Universidades con Carreras en Informática (RedUNCI) | es |
sedici.subtype | Objeto de conferencia | es |
sedici.rights.license | Creative Commons Attribution-NonCommercial-ShareAlike 2.5 Argentina (CC BY-NC-SA 2.5) | |
sedici.rights.uri | http://creativecommons.org/licenses/by-nc-sa/2.5/ar/ | |
sedici.date.exposure | 2014-05 | |
sedici.relation.event | XVI Workshop de Investigadores en Ciencias de la Computación | es |
sedici.description.peerReview | peer-review | es |