Diagrama de temas
-
Glosario
-
Clase 1
BASHBASH es un acrónimo que significa "Bourne Again Shell" y es un intérprete de comandos (shell) que fue desarrollado como una mejora del original Bourne Shell (sh), creado por Stephen Bourne. BASH es una de las shells más populares en sistemas operativos basados en Unix, como Linux y macOS y es el intérprete de comandos de línea de código abierto utilizado en la mayoría de las distribuciones de Linux y Unix.Oracle VirtualboxEs un emulador de máquinas virtuales de código abierto desarrollado por Oracle Corporation que permite crear varias máquinas virtuales dentro de una única máquina física, lo que facilita la prueba y despliegue de diferentes sistemas operativos y aplicaciones.LXDEEs un entorno de escritorio ligero y rápido diseñado para computadoras con recursos limitados o sistema operativos lentos.BiolinuxEs una distribución de Linux específica para la bioinformática que incluye software y herramientas populares utilizadas en este campo, como Biopython y Bedtools.Máquina anfitrionaEs la computadora o servidor en el que se ejecuta una o varias máquinas virtuales. También es conocida como host.Máquina huéspedEs una máquina virtual creada dentro de una máquina anfitriona que puede ejecutar un sistema operativo diferente al del anfitrión, lo que permite instalar y utilizar software o aplicaciones específicas sin interferir con el sistema operativo original. También es conocida como cliente o invitado.LubuntuEs una distribución de Linux basada en Ubuntu que utiliza el entorno de escritorio LXDE (Lightweight X11 Desktop Environment).REs un entorno de análisis estadístico y gráficos basado en el lenguaje de programación. Es muy popular entre los científicos, investigadores y estadísticos debido a su potencia y flexibilidad.PythonEs un lenguaje de programación de alto nivel diseñado para ser fácil de aprender y utilizar en todas las tareas. Es muy popular entre los desarrolladores debido a su sintaxis clara, legibilidad y facilidad para la creación de scripts e interfaces gráficas. -
Clase 2
lsb_releaseComando que muestra la información del sistema operativo instalado en una máquina, como la distribución y la versión.Uname -aComando que proporciona información sobre el kernel de Linux y detalles del sistema operativo.HostComando que permite obtener la información sobre un nombre de dominio o una dirección IP, como su dirección IP asociada.PwdComando que muestra el directorio de trabajo actual en la línea de comandos.CdComando que se utiliza para cambiar el directorio de trabajo en la terminal.GrepComando utilizado para buscar un patrón de texto específico dentro de archivos o cadenas de texto.WcComando que cuenta las líneas, palabras o caracteres en un archivo o entrada de texto.CutComando utilizado para dividir y extraer secciones específicas de un archivo o entrada de texto.SortComando que ordena las líneas de un archivo o entrada de texto en orden ascendente o descendente.AwkLenguaje de programación y comando que se utiliza para manipular y procesar archivos de texto, especialmente aquellos que tienen una estructura tabular.BioawkVersión especializada de AWK diseñada para trabajar con archivos biológicos, como archivos de secuencias FASTA y GFF.TuberíaCaracter (|) que permite encadenar varios comandos, de modo que la salida de un comando se convierte en la entrada de otro.RedireccionamientoTécnica que permite cambiar el flujo de entrada o salida de un comando, dirigiendo los resultados a un archivo o tomando la entrada de un archivo en lugar de la terminal. -
Clase 3
BashBash (acrónimo de Bourne Again Shell) es un intérprete de comandos y lenguaje de scripting utilizado en sistemas Unix y basados en Unix, como Linux y macOS. Bash permite a los usuarios interactuar con el sistema operativo a través de la línea de comandos para realizar tareas como gestionar archivos, ejecutar programas, y automatizar procesos mediante scripts. Es uno de los más populares debido a su flexibilidad y compatibilidad con una amplia variedad de entornos.ScriptArchivo de texto que contiene una serie de comandos que se ejecutan secuencialmente por un intérprete, como Bash. Los scripts son usados para automatizar tareas repetitivas, configurar sistemas, procesar datos, entre otras aplicaciones. En el contexto de Bash, los scripts están escritos en su lenguaje específico y suelen tener extensiones como .sh o ninguna.Bash ScriptingPráctica de escribir scripts utilizando el lenguaje del intérprete Bash. Esto incluye combinar comandos del sistema, estructuras de control (como bucles y condiciones), y funciones para realizar tareas más avanzadas y automatizadas. El Bash scripting es ampliamente usado en la administración de sistemas, la programación de tareas cron (automatización temporal), y el procesamiento de datos.ShebangEs una secuencia de caracteres que aparece al inicio de un archivo de texto ejecutable en sistemas Unix y basados en Unix. Su propósito es indicar al sistema qué intérprete debe utilizar para ejecutar el contenido del archivo. El shebang comienza con #!, seguido por la ruta absoluta del intérprete deseado, por ejemplo; #!/bin/bashHashbangEs un término coloquial que se utiliza como sinónimo de shebang. El nombre proviene de la combinación de los caracteres # (hash) y ! (bang). Aunque los términos son intercambiables, "shebang" es más comúnmente utilizado en contextos técnicos y documentación oficial.#!/bin/bash:Conocida como shebang o hashbang aparece al inicio de los scripts de Bash. Indica al sistema operativo que el archivo debe ser ejecutado usando el intérprete especificado.Parámetros Posicionales $i:Son variables predefinidas en Bash que representan los argumentos alimentados a un script o función desde la línea de comandos. Cada argumento se asigna automáticamente a una variable numerada según su posición en la lista de argumentos. Así, por ejemplo; “$1: Primer argumento”, “$2: Segundo argumento”, “3: Tercer argumento”, … y así sucesivamente, hasta $n, dependiendo del número de argumentos proporcionados.$#En Bash, la variable especial $# representa el número de argumentos posicionales que se pasaron al script o función en el momento de su ejecución. Es útil para determinar cuántos argumentos fueron proporcionados por el usuario y para controlar la lógica del script en función de esa cantidad.$0En Bash, la variable $0 es un parámetro especial que representa el nombre del script o comando que se está ejecutando. Su valor depende del contexto en el que se ejecuta el script. Así en un script $0 contiene el nombre del archivo del script, ya sea como ruta absoluta o relativa, dependiendo como fue lanzado.$* y $@En Bash, $* y $@ son variables especiales que representan todos los argumentos posicionales pasados a un script o función, pero tienen diferencias sutiles en cómo manejan esos argumentos, especialmente cuando se utilizan dentro de comillas dobles (").
- $*: Representa todos los argumentos como una sola cadena y si se utiliza entre comillas dobles ("$*"), todos los argumentos se concatenan en una única cadena, separados por el primer carácter del Internal Field Separator (IFS) (por defecto, un espacio).
- $@: Representa todos los argumentos, pero cada uno se trata como un elemento individual. Si se utiliza entre comillas dobles ("$@"), cada argumento se conserva como una unidad separada, lo que es útil para preservar espacios o caracteres especiales en los argumentos.
IFSLa variable IFS (Internal Field Separator) es una variable especial en Bash que determina los caracteres utilizados para dividir una cadena de texto en campos o tokens durante ciertas operaciones, como la iteración de bucles, la lectura de entradas o la expansión de variables. Por defecto, IFS contiene los caracteres: “Espacio ( )”, “Tabulación (\t)” y “Nueva línea (\n)”, esto significa que, en ausencia de una personalización explícita, Bash utiliza estos caracteres para separar campos.ZCATEl comando zcat se utiliza en sistemas Unix/Linux para visualizar el contenido de archivos comprimidos en formato gzip (.gz) sin necesidad de descomprimirlos físicamente en el disco. Es especialmente útil cuando se trabaja con archivos grandes y se quiere ahorrar espacio y tiempo.ZGREPEl comando zgrep permite buscar patrones de texto dentro de archivos comprimidos en formato gzip (.gz) sin necesidad de descomprimirlos previamente. Combina la funcionalidad de grep (búsqueda de patrones) y zcat (lectura de archivos comprimidos).FASTAFASTA es uno de los formatos más utilizados para representar secuencias biológicas. Un archivo FASTA contiene secuencias de ADN, ARN o proteínas precedidas por un encabezado que comienza con un signo de mayor (>).FASTQEs un formato que contiene más información que un archivo FASTA, ya que incorpora la calidad de las lecturas de secuenciación. Un archivo FASTQ tiene cuatro líneas para cada secuencia: el identificador, la secuencia, un separador (+), y la línea con los valores de calidad.GFFLos archivos GFF son un estándar ampliamente utilizado en bioinformática para describir características genómicas de secuencias de ADN, ARN o proteínas. Estos archivos contienen información estructurada sobre anotaciones, como genes, exones, intrones, regiones promotoras, sitios de inicio de transcripción, y otros elementos funcionales.SSH (Secure Shell)Protocolo de red que permite la conexión segura a un servidor remoto a través de una red no segura. SSH proporciona autenticación y cifrado para proteger la comunicación, permitiendo a los usuarios ejecutar comandos, transferir archivos y gestionar sistemas de manera remota con seguridad. -
Clase 4
Transcripción (ADN)Proceso biológico mediante el cual la información genética de una cadena de ADN se copia en una molécula de ARN mensajero (ARNm). Esta conversión se realiza gracias a la enzima ARN polimerasa, que "lee" la hebra molde de ADN (orientación 3'→5') y sintetiza una cadena complementaria de ARN (orientación 5'→3'). El ARN resultante sirve como intermediario para trasladar las instrucciones genéticas desde el núcleo celular hasta los ribosomas, donde se traducirán en proteínas. Es el primer paso de la expresión génica y no implica la replicación del ADN original.ShebangEn sistemas Unix/Linux, el shebang (también llamado hashbang) es una línea especial al inicio de un script (por ejemplo, #!/bin/bash) que indica al sistema operativo qué intérprete debe usar para ejecutar el código. Compuesto por los caracteres #! seguidos de la ruta del ejecutable (como /bin/bash para Bash o /usr/bin/python3 para Python), permite que el script se autodetermine y se ejecute directamente desde la terminal sin necesidad de especificar manualmente el intérprete. Es fundamental para garantizar la portabilidad y funcionalidad de los scripts en diferentes entornos.CronUtilidad en sistemas Unix/Linux que define y gestiona tareas programadas (cron jobs) mediante un archivo de configuración (o tabla cron), donde cada línea especifica un comando o script a ejecutar en intervalos regulares (minuto, hora, día, etc.), permitiendo automatizar procesos como copias de seguridad, actualizaciones o ejecución de programas sin intervención manual. Se accede y edita con el comando crontab -e, y sigue el formato:. stderr (Standard Error):Flujo de salida estándar (file descriptor 2) utilizado por programas y comandos en sistemas Unix/Linux para enviar mensajes de error, advertencias o información de depuración. A diferencia de stdout (Standard Output), que se usa para la salida normal de un programa, stderr está diseñado específicamente para manejar errores de manera independiente, lo que permite redirigir o suprimir estos mensajes sin afectar la salida principal. Por defecto, stderr se muestra en la terminal, pero puede redirigirse a archivos, descartarse (usando /dev/null) o combinarse con stdout para un manejo más flexible en scripts y comandos.findComando en sistemas Unix/Linux que permite buscar archivos y directorios en una jerarquía de directorios basándose en criterios específicos, como nombre, tipo, tamaño, fecha de modificación o permisos. Es una herramienta poderosa y flexible que admite la ejecución de acciones sobre los resultados encontrados (por ejemplo, eliminar, mover o ejecutar comandos). -
Clase 5
RLenguaje de programación usado para realizar procedimientos estadísticos y gráficos de alto nivel, este lenguaje fue creado en 1993 por los profesores e investigadores Robert Gentleman y Ross Ihaka. Inicialmente el lenguaje se usó para apoyar los cursos que tenían a su cargo los profesores, pero luego de ver la utilidad de la herramienta desarrollada, decidieron colocar copias de R en StatLib. A partir de 1995 el código fuente de R está disponible bajo licencia GNU GPL para sistemas operativos Windows, Macintosh y distribuciones Unix/Linux (Hernández, Usuga, 2021).PythonLenguaje de programación multipropósito de alto nivel y fácil de aprender, utilizado en una variedad de aplicaciones como el desarrollo web, la inteligencia artificial, el análisis de datos y la automación de tareas, destacándose por su sintaxis clara y versatilidad.BiocManagerEs una herramienta en el lenguaje de programación R diseñada para la gestión de paquetes bioinformáticos, especialmente aquellos que forman parte del proyecto Bioconductor.BioconductorEs una plataforma para el análisis de datos en biología molecular. BiocManager actúa como un gestor de versiones y dependencias, facilitando la instalación, actualización y administración de paquetes bioinformáticos de manera eficiente y reproducible; está integrado dentro del entorno de R, lo que permite un workflow fluido para los investigadores en biología computacional.BioStringEs una clase en el entorno de programación R, específicamente dentro del paquete IRanges, diseñada para representar y manipular secuencias biológicas, como cadenas de DNA o RNA. Sirve como un contenedor eficiente para almacenar información sobre las coordenadas y propiedades de estas secuencias, facilitando operaciones comunes en el análisis de datos genómicos, como la búsqueda, el corte y la fusión de intervalos. BioString es un componente fundamental en el ecosistema Bioconductor, ampliamente utilizado en investigación biomédica para el procesamiento y análisis de datos genómicos complejos.getwd()Es una función en R que devuelve el directorio de trabajo actual si este existe o de otra manera devuelve NULL.setwd()En R permite cambiar el directorio actual de trabajo a uno nuevo, de acuerdo a la ruta especificada como argumento.Objetcs()En R esta función sirve para listar todos los objetos (variables, datasets, funciones, etc.) disponibles en el entorno de trabajo actual. -
Clase 6
seqinrEs un paquete de R especializado en el análisis y manejo de secuencias biológicas (ADN, ARN, proteínas), que permite acceder a bases de datos como GenBank mediante el sistema ACNUC, importar/exportar archivos en formatos como FASTA o GenBank, calcular estadísticas clave (contenido de GC, frecuencias de n-meros como dinucleótidos), realizar análisis evolutivos (distancias genéticas con modelos como TN93, árboles filogenéticos), procesar proteínas (peso molecular, punto isoeléctrico), visualizar datos (gráficos de barras, histogramas) y manejar secuencias mediante funciones prácticas, como leer un archivo FASTA con read.fasta() o exportar resultados con write.fasta(), se debe considerar que su uso intensivo de memoria puede limitar su aplicación en conjuntos de datos muy grandes.Traducción (ADN a proteínas)Proceso biológico mediante el cual la información genética contenida en la secuencia de nucleótidos del ácido desoxirribonucleico (ADN) se convierte en una secuencia de aminoácidos que forman una proteína. Este proceso implica la transcripción del ADN en ácido ribonucleico mensajero (ARNm), seguida de la traducción del ARNm en una cadena polipeptídica mediante el uso de ribosomas, donde cada secuencia de tres nucleótidos (codón) especifica un aminoácido determinado. La secuencia resultante de aminoácidos se pliega y se procesa para formar una proteína funcional, que realizará una función específica en la célula.PythonLenguaje de programación alto nivel, interpretado y orientado a objetos, conocido por su sintaxis clara y enfoque en legibilidad. Fue creado por Guido van Rossum en los años 90 y se destaca por ser versátil, eficiente y por contar con una gran biblioteca estándar. Es ampliamente utilizado para scripting, desarrollo web, análisis de datos y más, gracias a su naturaleza modular y al apoyo de una comunidad activa. -
Clase 7
Datos ómicosConjuntos de datos biológicos masivos que provienen de las tecnologías de alto rendimiento utilizadas para analizar moléculas dentro de células, tejidos u organismos completos. El término "ómico" proviene del sufijo "-oma", que indica totalidad o conjunto. Estos datos permiten estudiar diferentes aspectos biológicos a gran escala, facilitando una comprensión más profunda de la biología de los organismos.BiopythonProyecto de código abierto que proporciona herramientas y módulos de Python para el análisis de datos en biología computacional y bioinformática. Diseñado para manejar datos biológicos como secuencias de ADN/ARN, estructuras proteicas o información genómica, incluye funcionalidades para manipulación de secuencias, lectura/escritura de formatos de archivo comunes (FASTA, GenBank, PDB), acceso a bases de datos biológicas (NCBI, UniProt) y ejecución de algoritmos como alineamientos, análisis filogenéticos o modelado estructural.Bio.EntrezUn módulo de la biblioteca Biopython que proporciona una interfaz programática para acceder a las bases de datos de Entrez del NCBI (National Center for Biotechnology Information). Permite realizar búsquedas, recuperar datos y analizar información biológica, como secuencias de ADN, proteínas, publicaciones científicas y otros recursos biomédicos, de manera automatizada y eficiente. Es una herramienta esencial para la bioinformática y el análisis de datos biológicos a gran escala.BioPandasBiblioteca de Python de código abierto diseñada para el análisis de datos estructurales en biología molecular, centrada en facilitar la manipulación de archivos biomoleculares como Protein Data Bank (PDB), MOL2 y mmCIF mediante su integración con pandas DataFrames Permite cargar, filtrar y analizar estructuras de proteínas y moléculas pequeñas directamente en DataFrames, simplificando tareas como el cálculo de la desviación cuadrática media (RMSD), visualización de factores B o conversión de estructuras a secuencias primarias.Scikit-bioBiblioteca de Python de código abierto y licencia BSD, diseñada para el análisis de datos biológicos en bioinformática. Proporciona estructuras de datos eficientes (como secuencias genómicas y árboles filogenéticos), algoritmos escaxlables (alineación, análisis de comunidades microbianas, modelado multi-ómico) y recursos educativos para investigadores, educadores y desarrolladores.Codón de inicioEs una secuencia de tres nucleótidos (triplete) en el ARN mensajero (ARNm) que marca el inicio de la traducción, el proceso de síntesis de proteínas. En la mayoría de los organismos, el codón de inicio es AUG (adenina-uracilo-guanina en ARN o ATG en ADN), que codifica el aminoácido metionina en eucariontes y una forma modificada (N-formilmetionina) en procariotas. Este codón establece el marco de lectura correcto para la traducción y es esencial para que los ribosomas inicien la unión de los aminoácidos en la cadena polipeptídica. En algunos casos, como en mitocondrias o bacterias, pueden emplearse codones alternativos (ej. GUG o UUG) como inicio.Codón de parada (o codón de terminación)Es un triplete en el ARNm que señala el final de la traducción. Los tres codones de parada universales son UAA, UAG y UGA (en ADN: TAA, TAG y TGA, respectivamente). A diferencia de los codones que codifican aminoácidos, estos no están asociados a ningún ARN de transferencia (ARNt), sino que son reconocidos por proteínas llamadas factores de liberación, que provocan la separación del ribosoma y la liberación de la cadena polipeptídica terminada. Su presencia garantiza la síntesis precisa de proteínas al evitar la elongación incorrecta de la secuencia. -
Clase 8
Datos ómicosConjuntos de datos biológicos masivos que provienen de las tecnologías de alto rendimiento utilizadas para analizar moléculas dentro de células, tejidos u organismos completos. El término "ómico" proviene del sufijo "-oma", que indica totalidad o conjunto. Estos datos permiten estudiar diferentes aspectos biológicos a gran escala, facilitando una comprensión más profunda de la biología de los organismos.Ranged Summarized ExperimentEs una estructura de datos en Bioconductor para almacenar y manipular datos de experimentos genómicos, como RNA-seq, ChIP-seq, o variantes genéticas, donde las filas representan características genómicas (por ejemplo, genes, regiones de unión, o variantes) y las columnas representan muestras.Análisis de expresión génica diferencial(DEA, por sus siglas en inglés Differential Expression Analysis), específicamente cuando se trabaja con datos generados por la técnica RNA sequencing (RNA-seq), es un proceso estadístico utilizado para identificar genes cuya expresión varía significativamente entre diferentes condiciones o grupos experimentales. Este tipo de análisis permite comprender cómo las expresiones génicas cambian en respuesta a factores como enfermedades, tratamientos o manipulaciones genéticas. El DEA se centra en comparar niveles de expresión génica entre muestras para detectar cambios estadísticamente significativos. Aunque los datos de RNA-seq son ricos en información, su complejidad requiere el uso de herramientas y metodologías específicas para extraer conocimientos biológicos útiles.PipEs el gestor de paquetes estándar para Python, utilizado para instalar, actualizar y gestionar bibliotecas y dependencias de software escritas en este lenguaje. A través de comandos simples, esta herramienta permite descargar e instalar paquetes desde el repositorio público de bibliotecas de código abierto Python Package Index (PyPI), resolviendo automáticamente las dependencias entre paquetes, asegurándose que todas las bibliotecas necesarias estén instaladas y sean compatibles entre sí.
-